-   到 :标题标签,用于定义标题的级别, 是最高级别的标题,依次递减。 
-  :段落标签,用于定义段落。  
- :链接标签,用于创建超链接,通过href属性指定链接目标。
- :内联容器标签,用于包裹一小段文本或行内元素。
- 
    :块级容器标签,用于组合和布局其他元素。 
   
- :强调文本标签,使文本加粗显示。
- :强调文本标签,使文本以斜体显示。
 :换行标签,用于插入一个换行符。
要改善上面的提取结果,使其能提取出更多的文本,我们可以修改提取的 tags 参数,如下,提取出, 
 和  的内容:
clike
代码解读
复制代码docs_transformed = bs_transformer.transform_documents(html, tags_to_extract=["span", "code", "p"])
修改后运行效果如下:已经将里面的文字和代码全部提取出来了(虽然还有些特殊符号,不过没关系,后面可以再过滤一层去掉):
1.5 怎么确认 tags_to_extract 的参数
那上面我是怎么确认要提取 "span", "code", "p" 这三个tag内的文本的呢?
(1)打开你要爬取的网页,按 F12 打开网页调试工具
(2)找到 “元素” 选项卡,然后点击左上角的这个图标(如图)
 (3)将鼠标悬浮在你想提取的文字上面,它就会自动展示当前文字所在的标签 tag 是什么。如下面图片:
    (4)将这些tag全部填到参数里,就OK了。
2. 高级方法 - 使用大模型的Function Calling提取所需文本
该方法是在以上方法的基础上,在得到文本后,再利用大模型,从文本中二次提取出所关注的文本内容。
这种方法的好处在于,对于网页内容和结构变化时,我们不需要再去频繁的调整提取tag等参数,而是最后利用大模型统一提取关心内容即可。
2.1 Demo代码
clike代码解读复制代码def scraping_with_extraction():
    from langchain_openai import ChatOpenAI
    llm = ChatOpenAI(temperature=0, model="gpt-3.5-turbo-0613")
    
    from langchain.chains import create_extraction_chain
    schema = {
        "properties": {
            "article_title": {"type": "string"},
            "article_content": {"type": "string"},
            "article_example_python_code": {"type": "string"},
        },
        "required": ["article_title", "article_content", "article_example_python_code"],
    }
    def extract(content: str, schema: dict):
        return create_extraction_chain(schema=schema, llm=llm).run(content)
    
    import pprint
    from langchain.text_splitter import RecursiveCharacterTextSplitter
    def scrape_with_playwright(urls, schema):
        from langchain_community.document_loaders import AsyncChromiumLoader
        from langchain_community.document_transformers import BeautifulSoupTransformer
        loader = AsyncChromiumLoader(urls)
        docs = loader.load()
        bs_transformer = BeautifulSoupTransformer()
        docs_transformed = bs_transformer.transform_documents(
            docs, tags_to_extract=["span", "code", "p"]
        )
        print("Extracting content with LLM")
        # Grab the first 1000 tokens of the site
        splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
            chunk_size=1000, chunk_overlap=0
        )
        splits = splitter.split_documents(docs_transformed)
        # Process the first split
        extracted_content = extract(schema=schema, content=splits[0].page_content)
        pprint.pprint(extracted_content)
        return extracted_content
    extracted_content = scrape_with_playwright(urls, schema=schema)
    
scraping_with_extraction()
2.2 代码解释
(1)schema定义
定义一个模式来指定要提取的数据类型。在这里,key的名称很重要,因为这是告诉LLM我们想要什么样的信息。所以,尽可能详细。
(2)正常走上面的流程,获取网页数据 docs_transformed
(3)代码中还做了 split,将全部文本分块了,可能是为了避免超出 LLM 的Token长度?
(4)最重要、最灵魂的几句,将文本内容,和模式传入 create_extraction_chain 来获取输出:
clike代码解读复制代码def extract(content: str, schema: dict):
       return create_extraction_chain(schema=schema, llm=llm).run(content)
extracted_content = extract(schema=schema, content=splits[0].page_content)
2.3 运行效果
输出的结果不是很好。
2.4 create_extraction_chain 源码解析
该函数源码如下:  其做的事儿,也比较简单,就是通过 _get_extraction_function 函数将上面我们定义的 schema 转换成了 function calling 中的 function 的结构。
 然后创建了一个 LLMChain 链。
看下它内置的Prompt,让大模型提取出在 information_extraction 函数中定义的 properties相关信息 :
python代码解读复制代码_EXTRACTION_TEMPLATE = """Extract and save the relevant entities mentioned \
in the following passage together with their properties.
Only extract the properties mentioned in the 'information_extraction' function.
If a property is not present and is not required in the function parameters, do not include it in the output.
Passage:
{input}
"""
很明显,这个 Prompt 比较简单,要想大模型提取的结果好,information_extraction 函数中定义的 properties必须要尽可能详细。怎么提供详细的说明呢?看下我之前的,可以看到参数下面可以加一个描述来详细描述该参数的含义。
仿照这个方法,我们可以优化schema:
python代码解读复制代码schema = {
    "properties": {
        "文章标题": {"type": "string", "description": "文章题目"},
        "文章正文全部内容": {"type": "string", "description": "文章的正文内容,不要包含Python代码,只输出文字"},
        "文章中的示例Python代码": {"type": "string", "description": "文章中的Python代码,只输出代码,用markdonw格式输出,可能存在多段代码,多段代码之间分开"},
    },
    "required": ["文章标题", "文章正文全部内容", "文章中的示例Python代码"],
}
还有一种方法,create_extraction_chain 函数的参数接收一个额外的 Prompt,我们也可以通过此参数来调优提取结果。
然而最终结果并没有多少改善… 待继续研究怎么优化。
该方法有点过于依赖大模型的能力,并且会大量消耗Token,目前还没看到有实际的落地效果,处于探索阶段。
大模型资源分享
针对所有自学遇到困难的同学,我为大家系统梳理了大模型学习的脉络,并且分享这份LLM大模型资料:其中包括LLM大模型书籍、0套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等。😝有需要的小伙伴,可以扫描下方二维码免费领取↓↓↓
一、全套 AGI 大模型学习路线
AI 大模型时代的精彩学习之旅:从根基铸就到前沿探索,牢牢掌握人工智能核心技能!
二、0 套 AI 大模型报告合集
此套涵盖 0 份报告的精彩合集,全面涉及 AI 大模型的理论研究、技术实现以及行业应用等诸多方面。无论你是科研工作者、工程师,还是对 AI 大模型满怀热忱的爱好者,这套报告合集都将为你呈上宝贵的信息与深刻的启示。
三、AI 大模型经典 PDF 书籍
伴随人工智能技术的迅猛发展,AI 大模型已然成为当今科技领域的一大热点。这些大型预训练模型,诸如 GPT-3、BERT、XLNet 等,凭借其强大的语言理解与生成能力,正在重塑我们对人工智能的认知。而以下这些 PDF 书籍无疑是极为出色的学习资源。
 
 
阶段 1:AI 大模型时代的基础认知
阶段 2:AI 大模型 API 应用开发工程
阶段 3:AI 大模型应用架构实践
阶段 4:AI 大模型私有化部署
学习计划:
- 阶段 1:历时 1 至 2 个月,构建起 AI 大模型的基础知识体系。
- 阶段 2:花费 2 至 3 个月,专注于提升 API 应用开发能力。
- 阶段 3:用 3 至 4 个月,深入实践 AI 大模型的应用架构与私有化部署。
- 阶段 4:历经 4 至 5 个月,专注于高级模型的应用与部署。