2019-07-26 10:22 已编辑杭州华为企业通信技术有限公司_Web引擎开发工程师

关注

scrapy爬虫简单项目入门练习

【写在开头】

scrapy环境配置配置好了之后，开始着手简单项目入门练习。关于环境配置见上一篇博客https://www.cnblogs.com/ljxh/p/11235079.html。

【正文部分】

视频是跟着CZ的学的，入门练习是爬取CZ官网的师资信息，

1、新建工程

　　控制台输入：scrapy startproject myspider 新建一个爬虫的工程文件，后面的myspider 可以自己命名。

2、生成一个爬虫

　　控制台输入scrapy genspider itcast "itcast.cn"，itcast是爬虫文件的名称，后面的"itcast.cn"是允许去爬的范围。完成上面两步之后如图1所示。

图1 生成的工程文件截图

3、更改itcast.py爬虫文件如下，更改最开始请求的URL地址和处理URL响应的函数，程序中用到了xpath对响应进行信息提取，还有日志模块生成日志文件。

# -*- coding: utf-8 -*-
import scrapy
import logging

logger = logging.getLogger(__name__)

class ItcastSpider(scrapy.Spider):
    name = 'itcast'
    allowed_domains = ['itcast.cn']  # 允许爬去的范围
    start_urls = ['http://www.itcast.cn/channel/teacher.shtml']  # 最开始请求的URL地址

    # parse方法名是不能改变的，下面的属性名item是可以随意定义的
    def parse(self, response):
        # 处理start_url地址对应的响应
        # 分组
        li_list = response.xpath("//div[@class='tea_con']//li")
        for li in li_list:
            item = {}
            item['name'] = li.xpath(".//h3/text()").extract_first()
            item['title'] = li.xpath(".//h4/text()").extract_first()
            logger.warning(item)
            yield item

4、更改setting.py文件，将管道处理激活，即取消PIPELINES的注释，用于保存数据。

图2 激活PIPELINES

5、在setting.py文件中设置日志信息。

LOG_LEVEL = "WARNING"
LOG_FILE = './log.log'

6、在控制台输入：scrapy crawl itcast，后面itcast根据自己的爬虫文件的名字来，运行结果如下：

图3 控制台输出的爬虫信息

备注：由于爬取的数据很多，这里只是截取了包含爬虫命令的一段数据。

图4 日志文件截图

【写在最后】

　　到这一个简单入门的爬虫项目就完成了，后面还有很多东西要学，这里做个简单的记录。文章是根据CZ的视频学习练习的，如有侵权，删帖。

小编尊重原创，文章如有侵权，联系小编删帖，谢谢监督。转发请备注出处！

全部评论

推荐最新楼层

11-19 18:45

西安邮电大学采编

原来是这样

原来开会共享屏幕上的文档，如果点自由浏览，光标点在哪个地方或者选中哪一块儿东西，都会显示出来带着自己名字的光标被开会的所有人看到我以为点自由浏览不会被看到的

点赞评论收藏

今天 00:06

浙江理工大学 SEM

校招与社招的区别到底在哪呢

首先，招聘比例差异明显，央国企85%都是应届生，社招的机会微乎其微，没通过校招就几乎告别了这些大企业。其次，校招主要面向刚毕业的大学生，竞争对手都是同学，而社招则是与有经验的人争夺，优势不在我们这边。最后，招聘要求也截然不同，校招是培养新人的机会，而社招则是要能立刻出成绩的老手，时间紧迫，压力山大！希望大家能够选择适合的方式。

牛客创作赏金赛

点赞评论收藏

10-24 14:41

蚌埠坦克学院 Java

不是哥们…还以为又行了

不是哥们，以为是又来机会了新一批笔试

有趣的牛油果开挂了：最近这个阶段收到些杂七杂八的短信是真的烦

点赞评论收藏

11-09 01:22

已编辑

东南大学 Java

最心动的约面环节

女朋友说请我吃饭

高级特工穿山甲：羡慕，我秋招有家企业在茶馆组织线下面试，约我过去“喝茶详谈”😢结果我去了发现原来是人家喝茶我看着

点赞评论收藏

11-20 00:15

中南大学 PHP

同情今年和明年的秋招生

或许是因为研究生扩招的缘故，也可能是经济形势不佳。有人说，如果当初不考研直接工作，或许现在会更好。本科生的岗位，现在读完研的也未必能去，而且薪资还降了不少。虽然审时度势很重要，但如果每个人都能预测未来，成功岂不是轻而易举？我现在面试的岗位，很多211、985的同学都还没有拿到offer，竞争激烈。

双非一本失业第二年：

失业啃老第二年，熬夜玩手机中。。

牛客创作赏金赛

点赞评论收藏

点赞收藏评论

全站热榜

正在热议

# 选完offer后，你后悔学本专业吗 #