2019-07-27 18:26 已编辑河南大学 C++

关注

五分钟写一个小爬虫，爬取小说并写入txt文件

先上代码：

#-*- coding:UTF-8 -*-
import requests
from lxml import html
requests.packages.urllib3.disable_warnings() # 禁用安全请求警告
url='http://www.shuge.net/html/111/111781/6593021.html' #需要爬数据的网址
page=requests.Session().get(url,verify=False)  #verify=False 关闭SSL证书认证
tree=html.fromstring(page.text)
result=tree.xpath('//div[@class="box_con"]//div/text()') #获取需要的数据
print(result)  #打印爬取结果
fo=open('1.txt','w')  #将数据写入文件
for ip in result:
    fo.write(ip)
    fo.write(' \n')
fo.close()
print("1")

爬取结果展示：

爬取内容为目标网页中的小说：

爬虫讲解：

首先要安装两个爬虫必备模块：

import requests

from lxml import html

request模块，用于向HTTP发送请求；如果没有安装可在终端执行“pip install requests”命令进行安装。

lxml模块同理，执行“pip install lxml”命令即可安装。

接下来要做的，就是寻找“猎物”，以一个小说网站为例：

对将要爬取的内容点击鼠标右键-检查

可以看到我们将要获取的内容在一个div里，接着往上寻找其上级标签，也就是这个：

将其标签及其class内容写入代码

result=tree.xpath('//div[@class="box_con"]//div/text()')

第一个div及为上级标签，后面是class内容，第二个div即为包含我们将要爬取内容的标签，text()即为该标签内的文字信息，格式根据爬取不同网页时的情况而定；

result会获取该网页所有<div class="box_con">标签下的div的文字的内容；

接着要做的就是将result里的内容写入txt文件，由于result获取到的是一个list，因此在写入是可以这样写：

fo=open('1.txt','w')  #将数据写入文件
for ip in result:
    fo.write(ip)
    fo.write('\n')
fo.close()

写入结果即为文章第二章图片显示。

再来试一下爬取热门小说排行榜吧！

这次的爬取内容是在<div class="topbooks">下的标签<a >里，那么我们其中两行代码这样写：

url='http://www.shuge.net/longhubang/'

result=tree.xpath('//div[@class="topbooks"]//a/text()')

爬取结果：

怎么样，是不是很简单呢？

但现实中爬虫会遇到很多问题，比如：

1. 页面规则不统一；
2. 爬下来的数据处理；
3. 反爬虫机制。

这些都需要一步一步地学习和摸索，坚持下去，总有一天你会成为爬虫大神的哟~

感谢观看

文章借鉴于博主@a_achengsong

全部评论

推荐最新楼层

昨天 11:50

西南石油大学后端

求教：双非本无论大中小都没有面试，简历哪里出问题了？

大厂一次一面都没有，全部卡在初筛或者测评，然后到期终止流程。BOSS上投递中小企业（12/106）也没有人约面试。我感觉项目有问题，但这是主要原因吗？

clevercat_：简历挺不错了

简历中的项目经历要怎么写投了多少份简历才上岸

点赞评论收藏

04-20 00:52

门头沟学院 C++

客户端岗位，求助

看到大伙都说客户端不要去，客户端引擎开发怎么样呢，要去吗

牛客解忧铺如何确定求职岗位

点赞评论收藏

03-20 13:05

哈尔滨理工大学算法工程师

这种简历在成都还能进互联网公司吗🥹

点赞评论收藏

02-26 13:51

四川大学 Java

危😨这是想进去裁缝纫机了？

大家千万不要想着去修改学信网的简历这个已经是没有改变的机会了如果想要寻求突破的话建议从自己的其他方面突破这个是万万不能做的呀其实只要努力做到最好不辜负自己的努力就可以了至于能否拿到offer其实更多的看实力加运气八股不知道咋记，不知道重点，可以看看我的神品八股专栏，全网40w粉大博主在看，鹅厂面试官也在看，介绍如下https://www.nowcoder.com/discuss/718273556131377152?sourceSSR=users

ML狂徒：800万给教育部部长他都不敢帮你改

点赞评论收藏

04-22 13:30

门头沟学院后端

京东传奇耐面王

京东面了七八次，被四个部门捞，经历过kpi和超时挂，终于是过了暑期结束

京东开奖119人在聊

点赞评论收藏

全站热榜

华为暑期进展

热聊中

创作者周榜

正在热议

# 如果能重来，就业or读研你选哪个？ #

126478次浏览 1592人参与