软件测试小侦探

07-18 11:14 University of California Berkeley 测试开发发布于江西

关注

结合LangChain实现网页数据爬取

LangChain 非常强大的一点就是封装了非常多强大的工具可以直接使用。降低了使用者的学习成本。比如数据网页爬取。

在其官方文档-网页爬取中，也有非常好的示例。

应用场景

信息爬取。
RAG 信息检索。

实践应用

需求说明

从 ceshiren 网站中获取每个帖子的名称以及其对应的url信息。
ceshiren论坛地址：**********************

实现思路

对应源码


# 定义大模型
from langchain_openai import ChatOpenAI
llm = ChatOpenAI(temperature=0, model="gpt-3.5-turbo-0613")

# 定义提取方法
def extract(content: str, schema: dict):
    from langchain.chains import create_extraction_chain
    return create_extraction_chain(schema=schema, llm=llm).invoke(content)

import pprint
from langchain_text_splitters import RecursiveCharacterTextSplitter
def scrape_with_playwright(urls, schema):
    # 加载数据
    loader = AsyncChromiumLoader(urls)
    docs = loader.load()
    # 数据转换
    bs_transformer = BeautifulSoupTransformer()
    # 提取其中的span标签
    docs_transformed = bs_transformer.transform_documents(
        docs, tags_to_extract=["span"]
    )
    # 数据切分
    splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
    chunk_size=1000, chunk_overlap=0)
    splits = splitter.split_documents(docs_transformed)
    # 因为数据量太大，输入第一片数据使用，传入使用的架构
    extracted_content = extract(schema=schema, content=splits[0].page_content)
    pprint.pprint(extracted_content)
    return extracted_content

urls = ["**********************"]
schema = {
    "properties": {
        "title": {"type": "string"},
        "url": {"type": "string"},
    },
    "required": ["title", "url"],
}
extracted_content = scrape_with_playwright(urls, schema=schema)

总结

了解网页爬取的实现思路以及相关技术。
通过LangChain实现爬取测试人网页的标题和url。

全部评论

推荐最新楼层

昨天 11:35

东华大学测试其它

避雷恒生电子

先说住宿吧。房间小，双人间其实就是单人间加一张床，跟室友挤在一起，虽然室友人不错，但还是觉得不太习惯。再说加班。我们岗位的工作量大，入职没多久就开始天天加班，晚上十点回宿舍。转正后在客户现场也是，基本上每天都要加班，还没有加班费。项目经理疯狂催进度，天天开会，内容都是重复的，感觉他就是为了催我们完成任务。吃饭方面，基本上都是点外卖，宿舍有厨房，但根本没时间做饭。不过，部门同事们都还不错，大家年纪差不多，互相帮助，关系挺好的。

恒生电子公司氛围 51人发布

点赞评论收藏

分享

11-23 11:04

门头沟学院 Java

双非二本java后端的“海市蜃楼”

前言：真的很折磨，投递4个月，boss沟通1200多家以及中大厂官网各种投简历，最后只有5面，已经累了，总算是在12月之前拿到一个满意的offer了。 双非二本要是java后端起步太晚（大二下学期才开始）或者没有过硬的奖项和项目还是考虑转吧，我是大一开学就决定走java后端，当时天真的以为只要踏踏实实的就可以找到满意的offer，现在看来，有时候选择>>努力。以我投了4个月的心得来看在没有实习经历前中大厂基本不会给面试的机会，“9分运气1分实力”在此刻具象化了，在刚开始投简历的时候我也曾以为java后端都可以像牛客上的大佬人手至少一份大厂offer,未曾想时间击碎了这虚...

Astraia：就算是幸存者偏差之下的人也都没有一蹴而就的成功，一步一步往上爬吧，总不能失去做梦的勇气

双非有机会进大厂吗找工作，你会甘心进小厂还是猛冲大厂

点赞评论收藏

分享

10-25 11:03

上海理工大学 Python

孩子主打一个听劝简历怎么改呀

0offer 帮帮孩子吧 我这种屌丝双非也想找个班上 

拉丁是我干掉的：把上海理工大学改成北京理工大学。成功率增加200%

点赞评论收藏

分享

昨天 09:41

已编辑

门头沟学院算法工程师

华为近期没二次保温是不是希望渺茫了呀？听说下周就开了-------------------------------更新：接口人直接不回消息了

zyrona：舍友一次保温就开了，别急

华子oc时间线华为求职进展汇总

点赞评论收藏

分享

3 1 评论

全站热榜

正在热议

# 25届秋招总结 #

371090次浏览 3671人参与

# 如果再来一次，你还会选择这个工作吗？ #

97154次浏览 966人参与

# 阿里云管培生offer #

45446次浏览 1356人参与

# 地方国企笔面经互助 #

5827次浏览 13人参与

# ai智能作图 #

8722次浏览 143人参与

# 发工资后，你做的第一件事是什么 #

4006次浏览 15人参与

# 北方华创开奖 #

64076次浏览 498人参与

# 我的实习求职记录 #

6099498次浏览 83791人参与

# 简历被挂麻了，求建议 #

2521053次浏览 33420人参与

# 上班到公司第一件事做什么？ #

14507次浏览 164人参与

# 阿里求职进展汇总 #

71623次浏览 780人参与

# 听到哪句话就代表面试稳了or挂了？ #

96420次浏览 808人参与

# 华为工作体验 #

108973次浏览 851人参与

# 网易求职进展汇总 #

38766次浏览 331人参与

# 如果有时光机，你最想去到哪个年纪？ #

26733次浏览 552人参与

# 如何写一份好简历 #

615179次浏览 8692人参与

# 面试体验感最好的是哪家？ #

91299次浏览 914人参与

# 腾讯求职进展汇总 #

204707次浏览 1686人参与

# 还记得你第一次面试吗？ #

28166次浏览 379人参与

# 投递实习岗位前的准备 #

1186440次浏览 18445人参与

# 硬件兄弟们甩出你的华为奖状 #

75307次浏览 611人参与

# 机械人值得去的车企 #

10268次浏览 35人参与

牛客网
牛客企业服务