淘系技术部招聘

2019-07-27 18:48 已编辑阿里巴巴_淘宝_Java研发

关注

Scrapy实践：爬取斗鱼TV主播的头像（重写ImagesPipeline实现图片爬取）

注：若运行以下代码报出有关“PIL”的错误，则只需安装pillow即可。

实现思路：

（1）使用Fiddler抓包工具，找出为斗鱼APP颜值区提供数据的URL（Json格式）
（2）在items中定义需要记录的相关信息
（3）在spider中实现迭代爬取各主播的信息
（4）在Pipeline中通过继承内置的ImagesPipeline类，重写其功能，实现图片的下载
（5）在settings.py文件中进行相关配置

代码实现：

items.py

# -*- coding: utf-8 -*-

import scrapy


class DouyuItem(scrapy.Item):
    #图片链接
    vertical_src = scrapy.Field()
    #主播名
    nickname = scrapy.Field()
    #图片保存路径
    imagePath = scrapy.Field()

爬虫文件（spiders/douyuMM.py）

# -*- coding: utf-8 -*-
import scrapy
import json
from Douyu.items import DouyuItem


class DouyummSpider(scrapy.Spider):
    name = 'douyuMM'
    allowed_domains = ['capi.douyucdn.cn']
    initial_URL = 'http://capi.douyucdn.cn/api/v1/getVerticalRoom?limit=20&offset='
    offset = 0
    URL = initial_URL + str(offset)
    start_urls = [URL]

    def parse(self, response):
        data = json.loads(response.text)['data']
        for each in data:
            item = DouyuItem()
            item['nickname'] = each['nickname']
            #将图片链接存储成列表形式，供pipelines迭代
            image_url = each['vertical_src']
            item['vertical_src'] = [image_url]
            yield item

        self.offset += 20
        #抓取前100个主播的图片
        if self.offset < 100:
            self.URL = self.initial_URL + str(self.offset)
            yield scrapy.Request(url=self.URL, callback=self.parse)

pipelines.py

# -*- coding: utf-8 -*-

import os
import scrapy
"""
    pipelines提供了图片相关的方法，因此只需继承ImagesPipeline
    并对“get_media_requests”和“item_completed”重写即可实现图片的下载
"""
from scrapy.pipelines.images import ImagesPipeline
#通过get_project_settings来获取settings.py文件中设置的变量
from scrapy.utils.project import get_project_settings


class DouyuImagesPipeline(ImagesPipeline):
    IMAGES_STORE = get_project_settings().get('IMAGES_STORE')

    def get_media_requests(self, item, info):
        for image_url in item['vertical_src']:
            yield scrapy.Request(image_url)

        """
            亦可用下面的代码，只不过下面的代码只能抓取一张图片
            image_url = item['vertical_src']
            yield scrapy.Request(image_url)
        """

    def item_completed(self, results, item, info):
        """
            result结构:
                [(True,
                  {'checksum': '2b00042f7481c7b056c4b410d28f33cf',
                   'path': 'full/0a79c461a4062ac383dc4fade7bc09f1384a3910.jpg',
                   'url': 'http://www.example.com/files/product1.pdf'}),
                 (False,
                  Failure(...))]
        """
        image_path = [x['path'] for ok, x in results if ok]
        # 修改图片保存名称为主播昵称
        # 并将爬取的图片存储在IMAGES_STORE设置的相对路径下，用“full”文件存储
        os.rename(self.IMAGES_STORE + image_path[0], self.IMAGES_STORE + 'full/' + item["nickname"] + ".jpg")
        item['imagePath'] = self.IMAGES_STORE + 'full/' + item["nickname"]
        return item

settings.py

BOT_NAME = 'Douyu'

SPIDER_MODULES = ['Douyu.spiders']
NEWSPIDER_MODULE = 'Douyu.spiders'

ROBOTSTXT_OBEY = True
DEFAULT_REQUEST_HEADERS = {
    'User-Agent':'DYZB/4.100 (iPhone; iOS 11.3.1; Scale/3.00)',
    'Accept': 'application/vnd.mapi-yuba.douyu.com.4.0+json',
    'Accept-Language': 'zh-Hans-CN;q=1'
}

IMAGES_STORE = 'data/斗鱼主播图片/'

ITEM_PIPELINES = {
    'Douyu.pipelines.DouyuImagesPipeline': 300,
}

全部评论

推荐最新楼层

11-12 16:35

西南财经大学网页产品经理

工作交接，新人跑了

工作交接，新人跑了之前说公司裁员，活都在我这边，薪资一直没加，偶尔加班开会还不调休，税前只有6提前半个月提了离职，1031最后1天，新人1031才来离职前写了两份文档，一份是整理逻辑类的交接文档，里面写着要更新什么，一份是工作sop，大概5000字，写着要更新的表的每一个步骤，从哪取因为最后一天来，下午开始交接，我讲了5h，演示了每一个表的操作过程，然后晚上就离职了结果听说第2天，新人跑了？？？

点赞评论收藏

分享

11-14 12:20

西京学院 Java

去哪儿电话

问了手里offer情况，然后给开了个白菜，我的秋招大概是结束了，啥都不想干

点赞评论收藏

分享

09-23 16:24

河海大学 C++

正式成为人才

俺的offer在哪：至少还有感谢信，我连感谢信都没发，三面完隔天状态查询就是未通过😂

点赞评论收藏

分享

昨天 21:52

西北工业大学模拟IC设计

第一次群面时，组内气氛轻松，几乎都是女生，大家对题目都很感兴趣。我偷偷查了攻略，但发现大家都看过，没能抢到角色，感觉自己像个小配角。在后续的面试中，我努力做真实的自己，尽管准备不足，还是硬着头皮回答问题，甚至模拟推销了奥利奥和可乐。最终，我收到了四面的通知，心中很激动。即使没有收到最终的offer，这段经历让我成长了许多，特别是独自安排行程的那份幸福感。

投递京东等公司10个岗位 > 牛客创作赏金赛

点赞评论收藏

分享

点赞收藏评论

全站热榜

正在热议

# 晒一晒我的offer #

9532053次浏览 103911人参与

# 我的实习求职记录 #

5950925次浏览 82780人参与

# 签约/解约注意事项 #

305700次浏览 1908人参与

# 数据人offer决赛圈怎么选 #

108141次浏览 1402人参与

# AI了，我在打一种很新的工 #

19172次浏览 426人参与

# 你的秋招第一场笔试是哪家 #

38933次浏览 535人参与

203607次浏览 2492人参与

# 简历被挂麻了，求建议 #

2426711次浏览 32688人参与

# 人生第一个10万你是多久存到的？ #

21830次浏览 238人参与

# 非技术er求职现状 #

20976次浏览 187人参与

# 大疆求职进展汇总 #

394973次浏览 2833人参与

# 你小时候最想从事什么职业 #

27340次浏览 575人参与

# 你/你领导的口头禅是什么？ #

3819次浏览 35人参与

# 如何拒绝/反向PUA #

45815次浏览 322人参与

# 你想留在一线还是回老家？ #

7607次浏览 156人参与

# 入职第一天，你准备什么时候下班 #

20576次浏览 133人参与

# 机械制造面试点评 #

33180次浏览 269人参与

# 设计人如何选offer #

38151次浏览 468人参与

# 互联网没坑了，还能去哪里？ #

1098145次浏览 12711人参与

# 那些拿到大厂offer的简历长啥样 #

107653次浏览 2060人参与

牛客网
牛客企业服务