2020-09-22 21:23 门头沟学院产品经理

关注

【爬虫学习笔记day61】7.3. scrapy-redis实战--有缘网分布式爬虫项目2

文章目录

7.3. scrapy-redis实战--有缘网分布式爬虫项目2
有缘网分布式爬虫案例：

7.3. scrapy-redis实战–有缘网分布式爬虫项目2

有缘网分布式爬虫案例：

修改 spiders/youyuan.py

在spiders目录下增加youyuan.py文件编写我们的爬虫，使其具有分布式：

# -*- coding:utf-8 -*-

from scrapy.linkextractors import LinkExtractor
#from scrapy.spiders import CrawlSpider, Rule

# 1. 导入RedisCrawlSpider类，不使用CrawlSpider
from scrapy_redis.spiders import RedisCrawlSpider
from scrapy.spiders import Rule


from scrapy.dupefilters import RFPDupeFilter
from example.items import youyuanItem
import re

# 2. 修改父类 RedisCrawlSpider
# class YouyuanSpider(CrawlSpider):
class YouyuanSpider(RedisCrawlSpider):
    name = 'youyuan'

# 3. 取消 allowed_domains() 和 start_urls
##### allowed_domains = ['youyuan.com']
##### start_urls = ['http://www.youyuan.com/find/beijing/mm18-25/advance-0-0-0-0-0-0-0/p1/']

# 4. 增加redis-key
    redis_key = 'youyuan:start_urls'

    list_page_lx = LinkExtractor(allow=(r'http://www.youyuan.com/find/.+'))
    page_lx = LinkExtractor(allow =(r'http://www.youyuan.com/find/beijing/mm18-25/advance-0-0-0-0-0-0-0/p\d+/'))
    profile_page_lx = LinkExtractor(allow=(r'http://www.youyuan.com/\d+-profile/'))

    rules = (
        Rule(list_page_lx, follow=True),
        Rule(page_lx, follow=True),
        Rule(profile_page_lx, callback='parse_profile_page', follow=False),
    )

# 5. 增加__init__()方法，动态获取allowed_domains()
    def __init__(self, *args, **kwargs):
        domain = kwargs.pop('domain', '')
        self.allowed_domains = filter(None, domain.split(','))
        super(youyuanSpider, self).__init__(*args, **kwargs)

    # 处理个人主页信息，得到我们要的数据
    def parse_profile_page(self, response):
        item = youyuanItem()
        item['header_url'] = self.get_header_url(response)
        item['username'] = self.get_username(response)
        item['monologue'] = self.get_monologue(response)
        item['pic_urls'] = self.get_pic_urls(response)
        item['age'] = self.get_age(response)
        item['source'] = 'youyuan'
        item['source_url'] = response.url

        yield item

    # 提取头像地址
    def get_header_url(self, response):
        header = response.xpath('//dl[@class=\'personal_cen\']/dt/img/@src').extract()
        if len(header) > 0:
            header_url = header[0]
        else:
            header_url = ""
        return header_url.strip()

    # 提取用户名
    def get_username(self, response):
        usernames = response.xpath("//dl[@class=\'personal_cen\']/dd/div/strong/text()").extract()
        if len(usernames) > 0:
            username = usernames[0]
        else:
            username = "NULL"
        return username.strip()

    # 提取内心独白
    def get_monologue(self, response):
        monologues = response.xpath("//ul[@class=\'requre\']/li/p/text()").extract()
        if len(monologues) > 0:
            monologue = monologues[0]
        else:
            monologue = "NULL"
        return monologue.strip()

    # 提取相册图片地址
    def get_pic_urls(self, response):
        pic_urls = []
        data_url_full = response.xpath('//li[@class=\'smallPhoto\']/@data_url_full').extract()
        if len(data_url_full) <= 1:
            pic_urls.append("");
        else:
            for pic_url in data_url_full:
                pic_urls.append(pic_url)
        if len(pic_urls) <= 1:
            return "NULL"
        return '|'.join(pic_urls)

    # 提取年龄
    def get_age(self, response):
        age_urls = response.xpath("//dl[@class=\'personal_cen\']/dd/p[@class=\'local\']/text()").extract()
        if len(age_urls) > 0:
            age = age_urls[0]
        else:
            age = "0"
        age_words = re.split(' ', age)
        if len(age_words) <= 2:
            return "0"
        age = age_words[2][:-1]
        if re.compile(r'[0-9]').match(age):
            return age
        return "0"

分布式爬虫执行方式：

6. 在Master端启动redis-server：

redis-server

7. 在Slave端分别启动爬虫，不分先后：

scrapy runspider youyuan.py

8. 在Master端的redis-cli里push一个start_urls

redis-cli> lpush youyuan:start_urls http://www.youyuan.com/find/beijing/mm18-25/advance-0-0-0-0-0-0-0/p1/

9. 爬虫启动，查看redis数据库数据。

全部评论

推荐最新楼层

11-20 00:03

河北大学 Java

腾讯的待遇真的挺不错的

在求职的路上，看到腾讯的薪资开到30k，心里真是五味杂陈。作为互联网的老大，腾讯的薪酬确实不含糊，但这也让不少人感到压力山大，尤其是那些被倒挂的同行们。虽然我也在努力寻找机会，但看到这些数字，心里难免有些失落。尤其是那些工作强度高的岗位，朝十晚八的作息让我觉得身体承受不住。希望未来能有更好的机会，让我也能在这个竞争激烈的市场中找到属于自己的位置。

牛客创作赏金赛

点赞评论收藏

11-22 00:38

南京大学 Java

深度思考后拒绝了offer

接到offer的那天，我心中矛盾重重，虽然证明了我的能力，但我却不想做不喜欢的工作。经过深思熟虑，我决定拒绝这份看似不错的工作。未来的日子里，我希望能勇敢追求自己真正想做的事情。再过两个月我就25岁了，我不想为不喜欢的选择而后悔。春招见！

牛客创作赏金赛

点赞评论收藏

11-21 01:22

门头沟学院测试开发

真。。真扩招吗？

雷总发了个微博，说小米南京扩招，能不能把我扩进去啊

想润的芹菜人狠话不多：把程序员的价格打下来

点赞评论收藏

10-11 17:30

湖南大学 C++

有offer可以硬起来了

😋😋😋

我已成为0offer的糕手：羡慕

点赞评论收藏

11-24 08:35

湖南大学 Java

华为实习一月体验

首先，工位超大，双屏办公。再说伙食，真的很好吃，很对我的胃口。公司凝聚力很强，很团结。团队氛围也特别好，大家都很有活力也很专业，互相帮助。加班的话，也是有的，具体看项目和工作的进度。园区环境很漂亮，设施这些应该算顶配了，显得时候下来散散步很舒服

italentmailsys：你是说那个没有绿豆的绿豆汤吗

华为工作强度 816人发布

点赞评论收藏

点赞收藏评论

全站热榜

正在热议

# 如果有时光机，你最想去到哪个年纪？ #

20841次浏览 370人参与

# 选完offer后，你后悔学本专业吗 #