张立梵

2022-10-12 13:21 已编辑江西科技职业学院设计发布于江西

关注

爬虫练习题（四）

题目：爬取百度贴吧tieba.baidu.com

要求1.在输入框中输入海贼王

2.爬取前六页的网页源代码

3.掌握百度贴吧网页链接的运行规律，构建合适的URL

步骤：打开网址-分析网站-发送请求-提取数据-保存数据

本题目代码：

import requests
word = input("输入要搜索的内容")
start = int(input("输入起始页"))
end = int(input("输入结束页"))
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'
}
for n in range(start,end+1):
    url = f'https://tieba.baidu.com/f?kw={word}&pn={(n-1)*50}'
    print(url)
    response = requests.get(url, headers=headers)
    with open(f"{word}的第{n}页.html", 'w', encoding='utf-8') as file:
        file.write(response.content.decode('utf-8'))

接下来我们就打开百度贴吧看看他的URL与之前的有什么区别吧！**

1.打开网址

tieba.baidu.com

2.分析网页

初始链接

tieba.baidu.com/f?ie=utf-8&…

第一页至第四页的链接

tieba.baidu.com/f?kw=%E6%B5…

我们可以发现除了原始百度贴吧的网页链接后面还有 kw，ie，pn，这都在符号/f?后面，这些参数我们在上一篇都已明晰，唯一不同的是搜索内容变成了 %E6%B5%B7%E8%B4%BC%E7%8E%8B 原因很简单，kw 是用户在输入框中输入的搜索内容，“海贼王”是汉字所以就被转码了，这一串字符的意思就是“海贼王”的意思。值得注意的是

在“&”符号后面出现了pn=0的字样

每一个网址都有自己独特的一面，百度贴吧也是一样，自己携带的pn参数在一些链接中是没有的，所以在构建URL时要注意他的变化，由分析可得第一页pn=0，爹人也陪你，第三页100，每页以50递增，我们不妨修改URL测试一下第五页和第六页的链接，把pn后面的值改成200和250

这样剩余俩页的就可以凭空写出：

tieba.baidu.com/f?kw=%E6%B5…

3.发送请求

导入requests模块，并且导入起始页和结束页 （这里别忘了强转哦） 还有一点就是导入搜索内容用word接收，构建好UA（User-Agent）。

import requests
word = input("输入要搜索的内容")
start = int(input("输入起始页"))
end = int(input("输入结束页"))
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'
}
复制代码

4、提取数据（pn的变化）

for n in range(start,end+1):
    url = f'https://tieba.baidu.com/f?kw={word}&pn={(n-1)*50}'
    print(url)
    response = requests.get(url, headers=headers)
复制代码

首先，我们需要提取第一页到第六页的数据，因为第一页pn的值为零，要满足每增长一页nn的值增加50，这个规律，我们就可以用公式pn =（n- 1）*50，当n为1时，Pn的值正好等于零，满足需求，后面的页面正好是以倍数增加，所以这个公式满足要求。以后我们要注意各种网址，每一种网址规律都不一样，想要找到它们之间的规律还是很难的，后面的文章我会详细的和大家慢慢的分析各种网址的应对情况，每一种网址需要找到规律，并且用公式把规律概括出来，并且反复的验证公式的准确性，所以公式不是唯一的，他极为灵活，要应对不同的场合，构建不同的公式，构建好可以打印一下发送请求的url。

还有一点需要注意的是，要明确是什么请求类型，这个就是Get请求，所以response=requests.get，后面传入相关成分这个发送请求的过程就包含了get请求，突显了这是一个get请求类型的网页，后面我们会遇到post请求类型，这个咱们遇到再说，百度翻译就是一个post的请求。

5、保存数据

   with open(f"{word}的第{n}页.html", 'w', encoding='utf-8') as file:
        file.write(response.content.decode('utf-8'))
复制代码

这里就是依次把文件名，写入，转码处理好就可以，转码类型一定要看清否则会报错。

希望大家能在我的文章中打好基础能够满怀信心的应对初级爬虫的任何挑战！后续会继续推出爬虫知识点与相关题目！

全部评论

推荐最新楼层

11-26 01:07

香港大学 Java

小米终于补发offer了！

但现在面临选择：是留在这里，还是去北京的测开岗位？这真是人生的十字路口，让我很纠结。虽然小米的机会很诱人，但我也不想轻易放弃现在的工作。希望能找到一个明智的决定，真心希望大家能给我一些建议！

投递小米集团等公司10个岗位 > 牛客创作赏金赛

点赞评论收藏

11-27 00:08

西安电子科技大学 FPGA工程师

秋招能不能简单点啊

大厂和小厂的HR们收到了成堆的985、211同学的简历，面试也快结束了，热门专业的同学们拿到的offer可不少。网申、海投和视频面试虽然降低了招聘成本，却也让投递率飙升，结果就是各种鸽子满天飞。某朋友的公司在职的百十号人中，几乎没有211的，领导只想要C9的人。其实我挺支持大家去线下面试的，愿意跑校招的HR都是有任务的，沟通会更充分。希望大家能迎着大环境的困难而上吧！

牛客创作赏金赛

点赞评论收藏

11-07 19:28

已编辑

电子科技大学 Java

秋招第二个offer

我的梦中情厂，想子，泡了一个多月泡出来了。这下纠结了，base成都，只能说总包很低，时薪不赖 #联想# #联想求职进展汇总# ------------TL:8.6投递8.20笔试9.20一面9.23二面10.23 oc+意向书------------后续：准备拒了，释放一个hc给有缘人，和东哥做兄弟去了

不期而遇的夏天：恭喜啊大佬，这种个人时间多，应该可以搞搞副业，至少不算牛马了

联想求职进展汇总

点赞评论收藏

10-25 09:58

中国科学技术大学算法工程师

有佬帮忙看看不，双非本华五硕投大模型、算法基本石沉大海了，真的人麻了。

q_joe：没论文、比赛不是第一，直接搜广推走起。

点赞评论收藏

11-27 18:56

嘉士伯_运营管理_HR

为什么建议看看外企

不知不觉已经十一月份了，国庆回来秋招就算真的进入中后期了，基本就是考选调，考体制内了，私企最后能投的一波就是十月上旬了，现在投着，前面大佬释放hc 大家还有一点机会1.不喜欢你工作太卷！（俺是卷心菜，虽卷但菜）外企非常严格地遵循无996，955工作制的同时实现WLB（work life balance），即即工作生活平衡，到点就可以走人~如果怕堵车或者有其他事情（比如不太舒服、有急事）都可以提前回去，部分外企每周还有一天或两天居家办公，嘿嘿~2.不喜欢你太给自己设限请大声说:我们都有无限可能不同于国企对应届生身份卡的比较严格，外企尤其往届生友好，毕业两年内还保有应届生身份的姐妹都可以去投！...

百威成长空间 51人发布

点赞评论收藏

全站热榜

正在热议

# 25届机械人为了秋招做了哪些准备？ #

# 985本硕1个中小厂offer，摆烂or继续努力 #

# 如果再来一次，你还会选择这个工作吗？ #

115479次浏览 1141人参与