张立梵

2022-10-12 13:21 已编辑江西科技职业学院设计发布于江西

关注

爬虫练习题（四）

题目：爬取百度贴吧tieba.baidu.com

要求1.在输入框中输入海贼王

2.爬取前六页的网页源代码

3.掌握百度贴吧网页链接的运行规律，构建合适的URL

步骤：打开网址-分析网站-发送请求-提取数据-保存数据

本题目代码：

import requests
word = input("输入要搜索的内容")
start = int(input("输入起始页"))
end = int(input("输入结束页"))
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'
}
for n in range(start,end+1):
    url = f'https://tieba.baidu.com/f?kw={word}&pn={(n-1)*50}'
    print(url)
    response = requests.get(url, headers=headers)
    with open(f"{word}的第{n}页.html", 'w', encoding='utf-8') as file:
        file.write(response.content.decode('utf-8'))

接下来我们就打开百度贴吧看看他的URL与之前的有什么区别吧！**

1.打开网址

tieba.baidu.com

2.分析网页

初始链接

tieba.baidu.com/f?ie=utf-8&…

第一页至第四页的链接

tieba.baidu.com/f?kw=%E6%B5…

我们可以发现除了原始百度贴吧的网页链接后面还有 kw，ie，pn，这都在符号/f?后面，这些参数我们在上一篇都已明晰，唯一不同的是搜索内容变成了 %E6%B5%B7%E8%B4%BC%E7%8E%8B 原因很简单，kw 是用户在输入框中输入的搜索内容，“海贼王”是汉字所以就被转码了，这一串字符的意思就是“海贼王”的意思。值得注意的是

在“&”符号后面出现了pn=0的字样

每一个网址都有自己独特的一面，百度贴吧也是一样，自己携带的pn参数在一些链接中是没有的，所以在构建URL时要注意他的变化，由分析可得第一页pn=0，爹人也陪你，第三页100，每页以50递增，我们不妨修改URL测试一下第五页和第六页的链接，把pn后面的值改成200和250

这样剩余俩页的就可以凭空写出：

tieba.baidu.com/f?kw=%E6%B5…

3.发送请求

导入requests模块，并且导入起始页和结束页 （这里别忘了强转哦） 还有一点就是导入搜索内容用word接收，构建好UA（User-Agent）。

import requests
word = input("输入要搜索的内容")
start = int(input("输入起始页"))
end = int(input("输入结束页"))
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'
}
复制代码

4、提取数据（pn的变化）

for n in range(start,end+1):
    url = f'https://tieba.baidu.com/f?kw={word}&pn={(n-1)*50}'
    print(url)
    response = requests.get(url, headers=headers)
复制代码

首先，我们需要提取第一页到第六页的数据，因为第一页pn的值为零，要满足每增长一页nn的值增加50，这个规律，我们就可以用公式pn =（n- 1）*50，当n为1时，Pn的值正好等于零，满足需求，后面的页面正好是以倍数增加，所以这个公式满足要求。以后我们要注意各种网址，每一种网址规律都不一样，想要找到它们之间的规律还是很难的，后面的文章我会详细的和大家慢慢的分析各种网址的应对情况，每一种网址需要找到规律，并且用公式把规律概括出来，并且反复的验证公式的准确性，所以公式不是唯一的，他极为灵活，要应对不同的场合，构建不同的公式，构建好可以打印一下发送请求的url。

还有一点需要注意的是，要明确是什么请求类型，这个就是Get请求，所以response=requests.get，后面传入相关成分这个发送请求的过程就包含了get请求，突显了这是一个get请求类型的网页，后面我们会遇到post请求类型，这个咱们遇到再说，百度翻译就是一个post的请求。

5、保存数据

   with open(f"{word}的第{n}页.html", 'w', encoding='utf-8') as file:
        file.write(response.content.decode('utf-8'))
复制代码

这里就是依次把文件名，写入，转码处理好就可以，转码类型一定要看清否则会报错。

希望大家能在我的文章中打好基础能够满怀信心的应对初级爬虫的任何挑战！后续会继续推出爬虫知识点与相关题目！

全部评论

推荐最新楼层

01-19 15:36

门头沟学院 C++

实习生需要日薪多少？

现在的实习薪资参差实在是太大了。有人日薪600+还在纠结要不要去，也有人对着日薪100的岗位问能不能学到东西。作为一个过来人，结合身边一圈同学的真实情况（坐标一二线，技术岗为主），聊聊我对正常实习薪资的分档体感。先定义一下计算公式：综合日薪 = 每日Base + 房补 + 餐补 + 其他福利（很多时候房补和餐补才是拉开差距的关键！）💰 第一档：日薪 < 150 在一二线城市，这个价位基本是不含房补的。算算现在的物价，扣掉吃饭通勤，基本等于“付费上班”。 除非就在家门口或者学校旁边，不用租房，否则真的很难坚持。这种薪资水平，公司基本就是把你当廉价劳动力，大概率是干Dirty Work（标...

GGrain：大多数都是第二档，具体工时看公司

实习生工资多少才算正常？

点赞评论收藏

01-22 12:55

阿里云_研发工程师JAVA(准入职员工)

shein内推，shein内推码

整体的感受还是拆分四个板块吧 1.个人成长-目前业务也在快速扩张期，有很多空白板块可以继续进行搭建，所以在背靠跨境的业务的同时也是可以积累非常可视化的经验，数据分析，项目管理，团队管理，绩效达成落地方案，都是必须需要掌握的技能 2.工作氛围-没有PUA也没有精神内耗，团队偏年轻化领导接近一线业务，没有精神鸿沟的同时具有亲和力的，下班时间和同事相处十分融洽，所以从整体感受来讲会比较轻松 3.福利待遇-位置在四海城附近整体周围的基础设施还是比较齐全，附近大型商场，免费下午茶 4.思维转变-从怕犯错再到勇于去尝试，只要在shein能够有想法且方案足够落地，即使会有踩坑，环境上大家还是比较包容，且结果...

SHEIN希音公司福利 337人发布

点赞评论收藏

2025-12-04 15:36

门头沟学院 Java

蚂蚁🐜很缺人？

刚才蚂蚁突然给我发邮件了，写的是这个ai团队招人，我点下面的链接进去一看，都是和算法，训练大模型相关的，最好要有顶会的论文，感觉和我经历不符凉凉

Carl_AI_La...：这种一般都是海量群发😂不过现在大模型，AI Infra，高性能计算之类的方向确实很缺人，投一投没坏处

面试线索爆料

点赞评论收藏

01-16 15:07

传音控股_技术运维工程师(准入职员工)

腾讯内推，腾讯内推码

腾讯2027届可转正实习启动！无限复活甲，鹅厂不设限：1. 只要当前未在面试流程中，可随时切换岗位，投递无上限！2. 如3个工作日后意向部门未发起面试，全公司所有岗位/部门均可能向你发起面试，发起次数无上限！3. 同学可根据个人意愿拒绝面试，腾讯承诺，拒绝面试不会对你之后的面试机会产生任何影响！招聘岗位：技术类，产品类，设计类，职能类，市场类招聘对象：毕业时间在26年1月1日-27年12月31日的学生内推链接：https://join.qq.com/resume.html?k=bFmqEK2SooMnahmfqMUK05-koXnwW3cpRelOqQ2wf0I内推码：TECCED77Z1（简...

点赞评论收藏

全站热榜

创作者周榜

正在热议