2020-08-15 19:31 已编辑北华航天工业学院 Java

关注

爬虫案例(一)

在家闲来无事，初入python世界，尝试做一个爬虫项目，爬取囧事百科网站相关内容
下面直接干货

import requests
from lxml import etree
import json

class QiubaiSpider:
    def __init__(self):
        self.url_trmp = "http://www.cnxox.com/baike/p{}/"

    def get_url_list(self):# 根据url地址的规律，构造url_list
        url_list = [self.url_trmp.format(i) for i in range(1, 14)]
        return url_list

    def parse_url(self, url):# 发送请求，获取响应
        response = requests.get(url)
        return response.content.decode()

    def get_content_list(self, html_str): # 提取数据
        html = etree.HTML(html_str)
        # 分组
        div_list = html.xpath('//div[@class="content"]/article')
        content_list =[]
        for div in div_list:
            item = {}
            item["title"] = div.xpath('.//h2/a/@title')[0] if len(div.xpath('//h2/a/@title')) > 0 else None
            item["note"] = div.xpath('.//p[@class="note"]/text()')
            item["read"] = div.xpath('.//p[@class="text-muted views"]/span/text()')[0] if len(
                div.xpath('.//p[@class="text-muted views"]/span/text()')) > 0 else None
            item["zan"] = div.xpath('.//p[@class="text-muted views"]/a/span/text()')[0] if len(
                div.xpath('.//p[@class="text-muted views"]/a/span/text()')) > 0 else None
            item["img"] = div.xpath('.//p[@class="focus"]/a/span/span/img/@src')[0] if len(
                div.xpath('.//p[@class="focus"]/a/span/span/img/@src')) > 0 else None
            content_list.append(item)
        return content_list

    def save_content_list(self, content_list):
        with open("qiubai.txt", 'a', encoding="utf-8") as f:
            for content in content_list:
                f.write(json.dumps(content, ensure_ascii=False))
                f.write('\n')
        print('保存成功')

    # 实现主要逻辑
    def run(self):
        # 根据url地址的规律，构造url_list
        url_list = self.get_url_list()
        # 发送请求，获取响应
        for url in url_list:
            html_str = self.parse_url(url)
            
            # 提取数据
            content_list = self.get_content_list(html_str)

            print(content_list)
            for content in content_list:
                print(content_list)
            # 保存数据
            self.save_content_list(content_list)
if __name__ == '__main__':
     quibai = QiubaiSpider()
     quibai.run()

运行结果：

总结：

书写爬虫脚本时，要按四步顺序书写代码：

url
- 知道url地址的规律和总的页码数：构造url地址的列表
- start_url
发送请求获取响应
- requests
提取数据
- 返回json字符串：json模块
- 返回的是html字符串：lxml模块配合xpath提取数据
保存数据

全部评论

推荐最新楼层

02-12 16:54

西安邮电大学招聘专员

DeepSeek：从入门到精通

发了两篇DeepSeek的内容，都上热贴了，决定给大家分享一下，清华团队制作的PDF重点

聊聊我眼中的AI

点赞评论收藏

分享

昨天 11:28

中国人民大学财务

二本出身，如何回应HR的“第一学历有点儿低？”

我是25届的硕士应届生之前在秋招过程中，遇到了一个让我印象挺深刻的问题，现在又是春招季了，就想在这里和大家分享一下当时，面试到了HR环节，一切还挺顺利的，简历上的项目经验、实习经历都聊得差不多了HR突然问我：“你的第一学历是二本院校，能和我说说为什么吗？”这问题一出来，我愣了一下，还能为什么，高考失利呗。这个问题我早就想过可能会被问到，毕竟第一学历在求职中是可能会被提到，但我选择避重就轻。我是这样回答的：“确实，我的本科是在一所二本院校完成的，但我一直很努力地提升自己。本科期间，我就意识到自己需要更扎实的学术基础和专业能力，所以很早就决定要考研。研究生阶段，我选择了更好的平台，也付出了更多努力...

点赞评论收藏

分享

02-14 14:14

东南大学嵌入式软件工程师

26届暑假实习嵌入式

26届硕士毕业，双非本9硕，打算在南京找暑假实习，求大佬指出简历问题，谢谢！有推荐的实习更好，谢谢！#实习#嵌入式软件 #简历咨询

点赞评论收藏

分享

02-06 17:58

北京中南海业余大学 Java

字节跳动很缺实习生吗

不用给我这么推 我进不去的

数学转码崽：一直给我推，投了又不理，理了又秒挂

点赞评论收藏

分享

不愿透露姓名的神秘牛友

02-16 22:33

求校招Offer比较：杉川机器人VS江波龙

杉川机器人嵌入式工程师 18.0k*13.0, 年终奖1~9个月浮动

点赞评论收藏

分享

评论

点赞

1

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 读研or工作，哪个性价比更高？ #

24645次浏览 333人参与

# 如果重来一次你还会读研吗 #

154709次浏览 1701人参与

# 科大讯飞求职进展汇总 #

258964次浏览 2595人参与

# 秋招感动瞬间 #

11012次浏览 103人参与

# 阿里巴巴创始人马云回国 #

14265次浏览 87人参与

# 职场新人生存指南 #

195873次浏览 5398人参与

# 你最满意的offer薪资是哪家公司？ #

11967次浏览 109人参与

# 长光卫星求职进展汇总 #

27606次浏览 184人参与

# 文科生还参加今年的春招吗 #

3433次浏览 29人参与

# 追觅科技求职进展汇总 #

8548次浏览 58人参与

# 选择和努力，哪个更重要？ #

42361次浏览 472人参与

# 招聘要求与实际实习内容不符怎么办 #

41620次浏览 469人参与

# 打工人的工作餐日常 #

24751次浏览 221人参与

# 机械制造岗投递时间线 #

19332次浏览 324人参与

# 小红书求职进展汇总 #

40468次浏览 346人参与

# 影石Insta360求职进展汇总 #

107728次浏览 969人参与

# 如果再来一次，你还会学硬件吗 #

102856次浏览 1236人参与

# 机械人选offer，最看重什么？ #

68631次浏览 433人参与

# 机械人怎么评价今年的华为 #

180372次浏览 1485人参与

# 滴！实习打卡 #

554949次浏览 6009人参与

牛客网
牛客企业服务