2019-07-26 10:22 已编辑杭州华为企业通信技术有限公司_Web引擎开发工程师

关注

scrapy爬虫简单项目入门练习

【写在开头】

scrapy环境配置配置好了之后，开始着手简单项目入门练习。关于环境配置见上一篇博客https://www.cnblogs.com/ljxh/p/11235079.html。

【正文部分】

视频是跟着CZ的学的，入门练习是爬取CZ官网的师资信息，

1、新建工程

　　控制台输入：scrapy startproject myspider 新建一个爬虫的工程文件，后面的myspider 可以自己命名。

2、生成一个爬虫

　　控制台输入scrapy genspider itcast "itcast.cn"，itcast是爬虫文件的名称，后面的"itcast.cn"是允许去爬的范围。完成上面两步之后如图1所示。

图1 生成的工程文件截图

3、更改itcast.py爬虫文件如下，更改最开始请求的URL地址和处理URL响应的函数，程序中用到了xpath对响应进行信息提取，还有日志模块生成日志文件。

# -*- coding: utf-8 -*-
import scrapy
import logging

logger = logging.getLogger(__name__)

class ItcastSpider(scrapy.Spider):
    name = 'itcast'
    allowed_domains = ['itcast.cn']  # 允许爬去的范围
    start_urls = ['http://www.itcast.cn/channel/teacher.shtml']  # 最开始请求的URL地址

    # parse方法名是不能改变的，下面的属性名item是可以随意定义的
    def parse(self, response):
        # 处理start_url地址对应的响应
        # 分组
        li_list = response.xpath("//div[@class='tea_con']//li")
        for li in li_list:
            item = {}
            item['name'] = li.xpath(".//h3/text()").extract_first()
            item['title'] = li.xpath(".//h4/text()").extract_first()
            logger.warning(item)
            yield item

4、更改setting.py文件，将管道处理激活，即取消PIPELINES的注释，用于保存数据。

图2 激活PIPELINES

5、在setting.py文件中设置日志信息。

LOG_LEVEL = "WARNING"
LOG_FILE = './log.log'

6、在控制台输入：scrapy crawl itcast，后面itcast根据自己的爬虫文件的名字来，运行结果如下：

图3 控制台输出的爬虫信息

备注：由于爬取的数据很多，这里只是截取了包含爬虫命令的一段数据。

图4 日志文件截图

【写在最后】

　　到这一个简单入门的爬虫项目就完成了，后面还有很多东西要学，这里做个简单的记录。文章是根据CZ的视频学习练习的，如有侵权，删帖。

小编尊重原创，文章如有侵权，联系小编删帖，谢谢监督。转发请备注出处！

全部评论

推荐最新楼层

07-08 13:48

门头沟学院 C++

有人经历过这么好的就业环境吗？

点赞评论收藏

不愿透露姓名的神秘牛友

07-09 15:10

前端不都要被AI替代了吗

看到这篇内容 大厂是需要前端，可不是人人都能进大厂，校招生1年、3年是个坎，挺不过去怎么办？后端虽然卷，但是不论是大公司还是小公司，需求一直都是存在的，比其他岗的中年危机来的更慢一些

计算机有哪些岗位值得去？

点赞评论收藏

06-16 00:33

淮阴工学院网络安全

笑死了，27届第一次投简历就过了

鼠鼠是双非二本，非科班本科生，目前大二，主攻网络安全方面的内容，在这方面小有成就，想着暑假没事干就投个简历，boss问了几家头部点公司没人理我，就去官网搜了几家，发现360公司好像明确招收27届的，投了一下，感觉面的不咋地，问到我Shiro反序列化原理，我直接说了不会面试官直接下一个问题，但好在fastjson我有研究的，答的很专业，然后后面就简单问了一些问题就过了，过了几天就收到hr电话了，就这么直接过了，没有丝毫波折哈哈哈哈（之前一直焦虑实习问题还托关系面了亚信，我第一次不知道是哪个地区的亚信，我以前上海的，好像就因为这个问题他给我挂了，怪无语的，连简历都没看，就聊了几句，有一说一我这个简历感觉无敌好吧，其实还有一些偏门的东西没写上去，写了感觉怪怪的也不实用）

MIX米线：你这项目经历有点猛哦

投递亚信科技（中国）有限公司等公司7个岗位

点赞评论收藏

06-17 16:58

华南理工大学 C++

提前批这么早，原来是这样

星辰再现：裁员给校招生腾地方

点赞评论收藏

07-08 11:55

山西大学测试工程师

26届九月份再找实习晚吗，不晚就让我再休息最后一个暑假吧

愉快的嘟教授alli...：秋招也休息吧

点赞评论收藏

全站热榜

创作者周榜

正在热议