2020-04-09 17:51 已编辑百度_搜索产品研发部_前端开发/客户端开发

关注

python爬虫urllib与BeautifulSoup（一）

小白一枚，记录自己学习的过程。
今日的目的是爬取起点小说网的一章小说。
首先我们把需要的包导入

from bs4 import BeautifulSoup
import urllib.request

为了防止反爬虫，还是得先模拟浏览器访问该网站。
模拟浏览器查看另一篇博。

  req.add_header('User-Agent','Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36')

urllib中包括了四个模块，包括
urllib.request, urllib.error, urllib.parse, urllib.robotparser

urllib.request可以用来发送request和获取request的结果
urllib.error包含了urllib.request产生的异常
urllib.parse用来解析和处理URL
urllib.robotparse用来解析页面的robots.txt文件

urllib.request有一个 urlopen() 方法可以实现最基本的请求发起，但这几个简单的参数并不足以构建一个完整的请求，如果请求中需要加入 headers 等信息，我们就可以利用更强大的 Request 类来构建一个请求。

url='https://read.qidian.com/chapter/0Xh7EIK1E5IJiWg6PYdjVg2/5VygD8s_e2Vp4rPq4Fd4KQ2'
    req=urllib.request.Request(url)
    req.add_header('User-Agent','Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36')
    data=urllib.request.urlopen(req)
    str=data.read()

到此我们已经抓取到了该网页的源代码,接下来把多余的标签去掉即可，只保留其中的文字内容。

我们通过对该网站的源代码观察，所有的小说内容都在p标签内，而p标签在div标签内，所以只要定位到该标签即可。
我们通过class对div进行区分

soup=BeautifulSoup(str,'html.parser')
content=soup.find("div",class_="read-content j_readContent").text

最后通过输出即可。
完整代码如下

import urllib.request
from bs4 import BeautifulSoup
def demo(url):
    req=urllib.request.Request(url)
    req.add_header('User-Agent','Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36')
    data=urllib.request.urlopen(req)
    str=data.read()

    soup=BeautifulSoup(str,'html.parser')
    content=soup.find("div",class_="read-content j_readContent").text
    f=open("xs",'w')
    f.write(content)
    f.close()
    print(content)

if __name__ == '__main__':
    url = 'https://read.qidian.com/chapter/0Xh7EIK1E5IJiWg6PYdjVg2/5VygD8s_e2Vp4rPq4Fd4KQ2'
    demo(url)

全部评论

推荐最新楼层

不愿透露姓名的神秘牛友

12-01 21:30

酷狗实习体验

先说说福利待遇吧，本科生一天120元，研究生150元，听起来不算多，但酷狗的隐形福利不少，每天早上9:50之前到公司可以领免费的早餐，先到先得。中午有20元的餐补，晚上7:30下班还有30元的补贴，晚上9:30之后能拿免费的夜宵。而且每天都有下午茶，水果和鸡蛋是标配，偶尔还有肯德基、麦当劳的甜点。午休时间是强制关灯的，椅子能放平。同事之间的关系也很随意，沟通起来没压力。楼下还有个小凉亭，午餐时我常常和实习伙伴在那儿吃饭，聊聊天。工作氛围也不错，我所在的组团队氛围很好，虽然老板有点严厉，但他对实习生还算宽容，其他同事都很友好，不会把脏活累活推给你。带我的姐姐还让我独立负责一些项目。

彳亍云力：转人工

点赞评论收藏

分享

不愿透露姓名的神秘牛友

11-28 23:26

先说说上班时间吧，弹性打卡，早上9点到10点之间都可以，打满9个小时就算正常出勤，刷卡或者刷脸都行。不同组的氛围也有点差异，但整体上差不多，大家都挺忙的。公司里到处都是饮水机，随时想喝就能喝。还有餐补，晚上八点后打卡下班可以拿到30元的餐补，直接发到账号上，外卖、团购、小象超市都能用，楼下食堂也有很多选择。节日福利也很不错，会发礼盒，而且还有活动可以参与，拿美团的周边礼品。

美团公司氛围 1919人发布

点赞评论收藏

分享

10-14 18:14

西安电子科技大学测试工程师

🤓一看就不是kpi

让我发下简历再拒啊

牛客737698141号：他们可以看到在线简历的。。。估计不合适直接就拒了

点赞评论收藏

分享

10-15 03:05

门头沟学院 Java

马凯文！你填错邮箱啦

今日首绷😂

CADILLAC_：凯文：我的邮箱是死了吗？

点赞评论收藏

分享

昨天 12:34

北京邮电大学 Java

这下感觉真是最晚华为入池了

爱华信华等华北邮本+一年英硕，等了一百年觉得简历挂了突然就捞起来面试了一面50min，狠狠压力项目一点点细扣JAVA 八股，用到了什么难的技术，讲讲动态代理及其优缺点，讲讲锁，能讲多少讲多少手撕挺压力的也：检测代码(List<String>)中的两种注释里有没有出现“字母+八位数字”的工号，面试官一直问还有什么情况需要考虑，比如多层注释、字符串里的假注释、半包围注释等等二面40min，还可以继续问项目，问做了什么、难点直接做题，经典的消防车+障碍物+起点终点，BFS找最短路径；做完以后问如果消防车有一次能消除障碍物的能力的话要怎么写主管面20min光速挑一个项目讲；讲最难的项目、有...

查看9道真题和解析华为求职进展汇总

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

正在热议

# 25届秋招总结 #

465005次浏览 4766人参与

# 晒一晒我的offer #

10031982次浏览 106368人参与

# 地方国企笔面经互助 #

8753次浏览 19人参与

# 如何排解工作中的焦虑 #

73641次浏览 1043人参与

# 同bg的你秋招战况如何？ #

90562次浏览 687人参与

# 找工作时遇到的神仙HR #

568613次浏览 3885人参与

# 实习，投递多份简历没人回复怎么办 #

2465504次浏览 34933人参与

# 虾皮求职进展汇总 #

131019次浏览 951人参与

# 你上一次加班是什么时候？ #

23256次浏览 186人参与

# 你投了多少份简历了？ #

68468次浏览 817人参与

# 提前批简历挂麻了怎么办 #

150965次浏览 1988人参与

# 面试被问第一学历差时该怎么回答 #

80337次浏览 516人参与

# 现在还是0offer，延毕还是备考 #

828247次浏览 6929人参与

# 大疆求职进展汇总 #

421266次浏览 2970人参与

# 比亚迪工作体验 #

45587次浏览 215人参与

# 来聊聊你目前的求职进展 #

522043次浏览 6227人参与

# 什么专业适合考公 #

15262次浏览 118人参与

# 总结:哪家公司面试体验感最好 #

20594次浏览 94人参与

# 如果公司给你放一天假，你会怎么度过？ #

5123次浏览 65人参与

# 找工作，你会甘心进小厂还是猛冲大厂 #

149095次浏览 1656人参与

牛客网
牛客企业服务