小水滴真的是太可爱了吧

2020-09-22 21:22 门头沟学院产品经理

关注

【爬虫学习笔记day64】7.6. scrapy-redis实战--尝试改写新浪网分类资讯爬虫2

文章目录

7.6. scrapy-redis实战--尝试改写新浪网分类资讯爬虫2

7.6. scrapy-redis实战–尝试改写新浪网分类资讯爬虫2

将已有的新浪网分类资讯Scrapy爬虫项目，修改为基于RedisSpider类的scrapy-redis分布式爬虫项目

注：items数据直接存储在Redis数据库中，这个功能已经由scrapy-redis自行实现。除非单独做额外处理(比如直接存入本地数据库等)，否则不用编写pipelines.py代码。

items.py文件

# items.py

# -*- coding: utf-8 -*-

import scrapy

import sys
reload(sys)
sys.setdefaultencoding("utf-8")

class SinaItem(scrapy.Item):
    # 大类的标题 和 url
    parentTitle = scrapy.Field()
    parentUrls = scrapy.Field()

    # 小类的标题 和 子url
    subTitle = scrapy.Field()
    subUrls = scrapy.Field()

    # 小类目录存储路径
    # subFilename = scrapy.Field()

    # 小类下的子链接
    sonUrls = scrapy.Field()

    # 文章标题和内容
    head = scrapy.Field()
    content = scrapy.Field()

settings.py文件

# settings.py

SPIDER_MODULES = ['Sina.spiders']
NEWSPIDER_MODULE = 'Sina.spiders'

USER_AGENT = 'scrapy-redis (+https://github.com/rolando/scrapy-redis)'

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = True
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"
#SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"
#SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderStack"

ITEM_PIPELINES = {
   
# 'Sina.pipelines.SinaPipeline': 300,
    'scrapy_redis.pipelines.RedisPipeline': 400,
}

LOG_LEVEL = 'DEBUG'

# Introduce an artifical delay to make use of parallelism. to speed up the
# crawl.
DOWNLOAD_DELAY = 1

REDIS_HOST = "192.168.13.26"
REDIS_PORT = 6379

spiders/sina.py

# sina.py

# -*- coding: utf-8 -*-

from Sina.items import SinaItem
from scrapy_redis.spiders import RedisSpider
#from scrapy.spiders import Spider
import scrapy

import sys
reload(sys)
sys.setdefaultencoding("utf-8")

#class SinaSpider(Spider):
class SinaSpider(RedisSpider):
    name= "sina"
    redis_key = "sinaspider:start_urls"
    #allowed_domains= ["sina.com.cn"]
    #start_urls= [
    # "http://news.sina.com.cn/guide/"
    #]#起始urls列表

    def __init__(self, *args, **kwargs):
        domain = kwargs.pop('domain', '')
        self.allowed_domains = filter(None, domain.split(','))
        super(SinaSpider, self).__init__(*args, **kwargs)


    def parse(self, response):
        items= []

        # 所有大类的url 和 标题
        parentUrls = response.xpath('//div[@id=\"tab01\"]/div/h3/a/@href').extract()
        parentTitle = response.xpath("//div[@id=\"tab01\"]/div/h3/a/text()").extract()

        # 所有小类的ur 和 标题
        subUrls  = response.xpath('//div[@id=\"tab01\"]/div/ul/li/a/@href').extract()
        subTitle = response.xpath('//div[@id=\"tab01\"]/div/ul/li/a/text()').extract()

        #爬取所有大类
        for i in range(0, len(parentTitle)):

            # 指定大类的路径和目录名
            #parentFilename = "./Data/" + parentTitle[i]

            #如果目录不存在，则创建目录
            #if(not os.path.exists(parentFilename)):
            # os.makedirs(parentFilename)

            # 爬取所有小类
            for j in range(0, len(subUrls)):
                item = SinaItem()

                # 保存大类的title和urls
                item['parentTitle'] = parentTitle[i]
                item['parentUrls'] = parentUrls[i]

                # 检查小类的url是否以同类别大类url开头，如果是返回True (sports.sina.com.cn 和 sports.sina.com.cn/nba)
                if_belong = subUrls[j].startswith(item['parentUrls'])

                # 如果属于本大类，将存储目录放在本大类目录下
                if(if_belong):
                    #subFilename =parentFilename + '/'+ subTitle[j]

                    # 如果目录不存在，则创建目录
                    #if(not os.path.exists(subFilename)):
                    # os.makedirs(subFilename)

                    # 存储 小类url、title和filename字段数据
                    item['subUrls'] = subUrls[j]
                    item['subTitle'] =subTitle[j]
                    #item['subFilename'] = subFilename

                    items.append(item)

        #发送每个小类url的Request请求，得到Response连同包含meta数据 一同交给回调函数 second_parse 方法处理
        for item in items:
            yield scrapy.Request( url = item['subUrls'], meta={
   'meta_1': item}, callback=self.second_parse)

    #对于返回的小类的url，再进行递归请求
    def second_parse(self, response):
        # 提取每次Response的meta数据
        meta_1= response.meta['meta_1']

        # 取出小类里所有子链接
        sonUrls = response.xpath('//a/@href').extract()

        items= []
        for i in range(0, len(sonUrls)):
            # 检查每个链接是否以大类url开头、以.shtml结尾，如果是返回True
            if_belong = sonUrls[i].endswith('.shtml') and sonUrls[i].startswith(meta_1['parentUrls'])

            # 如果属于本大类，获取字段值放在同一个item下便于传输
            if(if_belong):
                item = SinaItem()
                item['parentTitle'] =meta_1['parentTitle']
                item['parentUrls'] =meta_1['parentUrls']
                item['subUrls'] =meta_1['subUrls']
                item['subTitle'] =meta_1['subTitle']
                #item['subFilename'] = meta_1['subFilename']
                item['sonUrls'] = sonUrls[i]
                items.append(item)

        #发送每个小类下子链接url的Request请求，得到Response后连同包含meta数据 一同交给回调函数 detail_parse 方法处理
        for item in items:
                yield scrapy.Request(url=item['sonUrls'], meta={
   'meta_2':item}, callback = self.detail_parse)

    # 数据解析方法，获取文章标题和内容
    def detail_parse(self, response):
        item = response.meta['meta_2']
        content = ""
        head = response.xpath('//h1[@id=\"main_title\"]/text()').extract()
        content_list = response.xpath('//div[@id=\"artibody\"]/p/text()').extract()

        # 将p标签里的文本内容合并到一起
        for content_one in content_list:
            content += content_one

        item['head']= head[0] if len(head) > 0 else "NULL"

        item['content']= content

        yield item

执行：

slave端：
scrapy runspider sina.py

Master端：
redis-cli> lpush sinaspider:start_urls http://news.sina.com.cn/guide/

全部评论

推荐最新楼层

不愿透露姓名的神秘牛友

11-27 10:30

奇瑞感谢信

搞不懂奇瑞的要求是哪些，为什么全给我挂了

你都收到了哪些公司的感谢信？

点赞评论收藏

分享

11-27 16:55

重庆邮电大学 Java

到了新公司，不要用力过猛

最近组里来了个新人，想表现自己，经常用力过猛。 劝大家，到了新公司，第一件事一定是观察！ 这时候做任何事，都不要用力过猛，多做多说多错，最好的办法是先熟悉环境、同事、公司文化，尽量让自己快速融入，不那么扎眼！ 可以从这3个方面入手： 观察领导的行事作风 在领导手下做事，要根据领导的风格来。他是实事求是的，还是有点拎不清爱拉关系的，是喜欢下属卷一点，还是生活工作平衡型的。直属上级能决定自己的绩效、考核，一定要摸清他的性格脾气，别上来就横冲直撞表现自己，很可能踩了雷区还不自知。 了解不同同事的性格、能力 这些人里有领导的耳目、团队的刺头、关系户、小人，所以一开始接触千万...

CADILLAC_：是的尤其是所有人都不卷的时候，你也千万不要卷。下班跟他们一块走

点赞评论收藏

分享

10-28 14:42

门头沟学院 Java

好执着啊，双非本这么有吸引力吗

watermelon1124：因为嵌入式炸了

点赞评论收藏

分享

昨天 18:33

CVTE_运营管理_HR

拿完offer再挑

目前池子里已经有很多同学泡着了，各个学校的三方也已经陆续开放，但是并不代表着签完三方就结束了，很多同学还会有违约考虑国企央企，所以10月到11月之间对于大部分同学来讲，还是没办法完全放松（已经拿到满意的offer的另说） ，还没有投的同学最后都投上吧，春招hc都不一定有秋招中期的剩下的hc多，直入主题，大家都关注的问题cvte加不加班？加还是加的，但是看部门，软硬件基本都是8点钟走其他的一些文职部门我看下班还是六点准时的而且不是强制，你事情做完可以走的，全天不打卡工资待遇怎么样？待遇还是挺不错，校招普遍都是10k以上，目前我见过最高的是18k的。福利待遇有哪些？五险一金啥的不用说了。住房公积...

投递CVTE等公司10个岗位 >

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

正在热议

# 拼多多求职进展汇总 #

233353次浏览 2031人参与

# 在职场上，你最讨厌什么样的同事 #

5713次浏览 81人参与

# 北方华创开奖 #

66010次浏览 549人参与

# 25届秋招总结 #

396588次浏览 3976人参与

# 哪些公司校招卡第一学历 #

32833次浏览 105人参与

# 地方国企笔面经互助 #

6546次浏览 16人参与

# 阿里云管培生offer #

58988次浏览 1748人参与

# ai智能作图 #

21387次浏览 262人参与

# 硬件兄弟们甩出你的华为奖状 #

77946次浏览 625人参与

# 实习，投递多份简历没人回复怎么办 #

2435880次浏览 34703人参与

# 工作中，你有没有遇到非常爱骂人的领导？ #

4725次浏览 47人参与

# 实习与准备秋招该如何平衡 #

722808次浏览 8551人参与

# 我的实习求职记录 #

6121598次浏览 83953人参与

# 如果再来一次，你还会选择这个工作吗？ #

110464次浏览 1109人参与

# 25届机械人为了秋招做了哪些准备？ #

24992次浏览 355人参与

# 签了三方后想毁约怎么办 #

18563次浏览 111人参与

# 如果你有一天可以担任公司的CEO，你会做哪三件事？ #

9958次浏览 213人参与

# 机械求职避坑tips #

22156次浏览 240人参与

# 游戏求职进展汇总 #

52769次浏览 344人参与

# 夸夸我的求职搭子 #

132021次浏览 1360人参与

# 腾讯求职进展汇总 #

207572次浏览 1694人参与

# 实习想申请秋招offer，能不能argue薪资 #

35785次浏览 308人参与

牛客网
牛客企业服务