Scrapy实践：爬取腾讯社会招聘信息（文字爬取）

注：爬取后的信息将以json格式存储，并将文件命名为“recruit.json”可用Notepad++打开。

代码实现：

items.py

# -*- coding: utf-8 -*-

import scrapy


class TxhrItem(scrapy.Item):
    #职位名称
    positionName = scrapy.Field()
    #职位类别
    positionType = scrapy.Field()
    #需求人数
    needNum = scrapy.Field()
    #工作地点
    workingSpace = scrapy.Field()
    #发布时间
    publishTime = scrapy.Field()

爬虫文件（spiders/txHRSpider.py）

# -*- coding: utf-8 -*-
import scrapy
from txHR.items import TxhrItem


class TxhrspiderSpider(scrapy.Spider):
    name = 'txHR'
    allowed_domains = ['tencent.com']
    initialURL = 'https://hr.tencent.com/position.php?@start=&start='
    bias = 0
    url = initialURL + str(bias)
    start_urls = [url]

    def parse(self, response):
        # even=偶,odd=奇
        for each in response.xpath("//tr[@class='even'] | //tr[@class='odd']"):
            #创建模型对象
            item = TxhrItem()
            item['positionName'] = each.xpath("td[1]/a/text()").extract()[0]
            test_null = each.xpath("td[2]/text()").extract()
            #因为网页中有的记录中的“职位类别”为空，如果不加上下面的判断，程序会在中途报错
            if test_null == []:
                item['positionType'] = "Null"
            else:
                item['positionType'] = test_null[0]
            item['needNum'] = each.xpath("td[3]/text()").extract()[0]
            item['workingSpace'] = each.xpath("td[4]/text()").extract()[0]
            item['publishTime'] = each.xpath("td[5]/text()").extract()[0]
            yield item
        self.bias += 10
        #抓取前1000条社会招聘信息
        if self.bias < 1000:
            url = self.initialURL+str(self.bias)
            yield scrapy.Request(url, callback=self.parse)

pipelines.py

# -*- coding: utf-8 -*-

import json


class TxhrPipeline(object):
    def __init__(self):
        self.output = open("recruit.json", 'w')

    def process_item(self, item, spider):
        # 将爬取的信息先转换为字典，再转换为json格式的键值对
        jsonText = json.dumps(obj=dict(item), ensure_ascii=False) + '\n'
        self.output.write(jsonText)
        return item

    def close_spider(self):
        self.output.close()

settings.py

BOT_NAME = 'txHR'

SPIDER_MODULES = ['txHR.spiders']
NEWSPIDER_MODULE = 'txHR.spiders'

ROBOTSTXT_OBEY = True

DEFAULT_REQUEST_HEADERS = {
    'user-agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36',
    'Accept': 'image/webp,image/apng,image/*,*/*;q=0.8',
    'Accept-Language': 'zh-CN,zh;q=0.9',
}

ITEM_PIPELINES = {
    'txHR.pipelines.TxhrPipeline': 300,
}

全部评论

推荐最新楼层

05-13 16:14

已编辑

百度_高级研发工程师

离开华为一年多，说说我的真实感受

从小厂倒闭，到借道华为OD，再到逆袭百度正编，再到如今南下深圳涨薪45%，正式开始从业AI智能体开发。这六年，是我用自己的骨血，硬生生的趟完了职场的原始积累，不再受限于学历、性格、原生家庭，随着我的户口在深圳落下，我的人生也算是重新开始了。 今天趁着在家居家办公，做个彻底复盘，结段段的真实经历，和我在华为的很多朋友的反馈，给大家讲讲：“华为到底喜欢要哪些人？学历门槛到底在哪？华为OD能不能去？哪些部门值得去？晋升通道和工作氛围如何？”  “这次一次性给你讲透，不踩坑、不绕弯、不讲废话，直接给你干货版，不啰嗦、不铺垫、不走弯路。”（满满的回忆啊兄弟们）一、华为天选之子与目标院校 “华为选人核心是...

华为HUAWEI工作强度 1363人发布

点赞评论收藏

05-12 14:19

浙江大学算法工程师

C++ 面试越来越爱问什么：八股文背完了，为什么还是过不了

这两年看 C++ 面试题，有个很明显的变化：面试官还是会问基础，但已经不太满足于你把“定义”背出来。以前很多同学准备 C++，重点放在语法点、STL、几道经典手撕题上，确实能应付一部分岗位。现在不一样，尤其是后台、客户端、基础架构、自动驾驶、游戏引擎、嵌入式 Linux、量化开发这些方向，面试官更喜欢从一个基础点一路追到语言机制、工程实践和性能取舍。也就是说，C++ 八股文还得会，但只会八股远远不够。真正拉开差距的，是你能不能把“语言特性为什么这样设计”“在项目里为什么这么用”“这样写的代价是什么”讲明白。一、现在 C++ 面试的重心到底变了什么先说结论：C++ 面试不是不问基础了，而是基础问...

点赞评论收藏

05-11 16:54

门头沟学院 Java

天天打游戏的上铺，拿了腾讯实习😭

破防了，真破防了。我们宿舍老三，大学三年我没见他翻过一次专业书。每天早上十点起，中午LOL一把，下午吃鸡，晚上吃完饭继续。期末考前借我笔记抄一抄，每次还能比我高。我以为他就是那种聪明但摆烂的，毕业肯定也就随便找个差不多的。结果上周他突然在群里发了个截图，鹅厂某事业群的暑期实习offer。我们整个宿舍群直接安静了五分钟。我去问他咋准备的，他说"没准备啊，就投了简历面了一下"。我血压当场上来。后来才知道，人家大二就在跟着学长偷偷接私活做小程序，github上小一千star，面试官看完直接说这种我们要。我现在每天图书馆坐十小时，刷题做项目背八股，offer还在路上……哭了

burst#0420：哥们儿调整心态，每个人节奏不一样。他走的是项目流，你走的是八股流，殊途同归。继续刷题不亏

点赞评论收藏

04-02 10:09

门头沟学院 Java

我的3月好失败

投的大厂几乎全都是简历挂，我不太明白，我问了很多人他们都说简历没什么问题。可是快手挂我两遍美团、阿里大部分、拼多多、字节剪映、懂车帝、爱奇艺、百度、oppo、小米、美的、哔哩哔哩基本上都是简历挂。我想不通了，一整个三月只有腾讯和钉钉给面了。结果腾讯的两道题我没a出来，钉钉遇到kpi面，面完出来看官网果然是秒挂，我已经觉得绝望了。难道真是简历问题？

用微笑面对困难：这里面问题还是很多的，我也不清楚为啥大家会感觉没啥问题。首先就是全栈开发实习9个月的内容都没有java实习生的内容多，1整个技术栈没看出太核心和难点的内容，感觉好像被拉过去打杂了，而且全栈基本上很容易被毙。里面能问的bug是在太多了比如L：继承 BaseMapper 可直接使用内置方法’。请问你的 BaseMapper 是如何扫描实体类注解如果瞬时产生 100 个上传任务，MySQL 的索引设计是否会有瓶颈？你做过分库分表或者索引优化吗？全栈的内容可以针对动态难点去搞，技能特长写在下面吧，你写了这么多技能，项目和实习体现了多少？你可以在项目里多做文章然后把这个放下去，从大致来看实习不算太水，有含金量你也要写上内容针对哨兵里面的节点变化能问出一万个问题，这个很容易就爆了。