Scrapy实践:爬取腾讯社会招聘信息(文字爬取)

注:爬取后的信息将以json格式存储,并将文件命名为“recruit.json”可用Notepad++打开。

代码实现:

items.py

# -*- coding: utf-8 -*-

import scrapy


class TxhrItem(scrapy.Item):
    #职位名称
    positionName = scrapy.Field()
    #职位类别
    positionType = scrapy.Field()
    #需求人数
    needNum = scrapy.Field()
    #工作地点
    workingSpace = scrapy.Field()
    #发布时间
    publishTime = scrapy.Field()

爬虫文件(spiders/txHRSpider.py)

# -*- coding: utf-8 -*-
import scrapy
from txHR.items import TxhrItem


class TxhrspiderSpider(scrapy.Spider):
    name = 'txHR'
    allowed_domains = ['tencent.com']
    initialURL = 'https://hr.tencent.com/position.php?@start=&start='
    bias = 0
    url = initialURL + str(bias)
    start_urls = [url]

    def parse(self, response):
        # even=偶,odd=奇
        for each in response.xpath("//tr[@class='even'] | //tr[@class='odd']"):
            #创建模型对象
            item = TxhrItem()
            item['positionName'] = each.xpath("td[1]/a/text()").extract()[0]
            test_null = each.xpath("td[2]/text()").extract()
            #因为网页中有的记录中的“职位类别”为空,如果不加上下面的判断,程序会在中途报错
            if test_null == []:
                item['positionType'] = "Null"
            else:
                item['positionType'] = test_null[0]
            item['needNum'] = each.xpath("td[3]/text()").extract()[0]
            item['workingSpace'] = each.xpath("td[4]/text()").extract()[0]
            item['publishTime'] = each.xpath("td[5]/text()").extract()[0]
            yield item
        self.bias += 10
        #抓取前1000条社会招聘信息
        if self.bias < 1000:
            url = self.initialURL+str(self.bias)
            yield scrapy.Request(url, callback=self.parse)

pipelines.py

# -*- coding: utf-8 -*-

import json


class TxhrPipeline(object):
    def __init__(self):
        self.output = open("recruit.json", 'w')

    def process_item(self, item, spider):
        # 将爬取的信息先转换为字典,再转换为json格式的键值对
        jsonText = json.dumps(obj=dict(item), ensure_ascii=False) + '\n'
        self.output.write(jsonText)
        return item

    def close_spider(self):
        self.output.close()

settings.py

BOT_NAME = 'txHR'

SPIDER_MODULES = ['txHR.spiders']
NEWSPIDER_MODULE = 'txHR.spiders'

ROBOTSTXT_OBEY = True

DEFAULT_REQUEST_HEADERS = {
    'user-agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36',
    'Accept': 'image/webp,image/apng,image/*,*/*;q=0.8',
    'Accept-Language': 'zh-CN,zh;q=0.9',
}

ITEM_PIPELINES = {
    'txHR.pipelines.TxhrPipeline': 300,
}




全部评论

相关推荐

首先讲三个故事,关于牛客的事件一:2024年,牛客上有一对高学历情侣,求职方向与我当时一致,都是嵌入式方向。他们恰好是我的朋友,专业能力和学历背景都很扎实,也因此拿到了不少优质offer。和很多求职者一样,他们把offer情况整理后发在平台上,本意是记录与交流,但很快引发了争议。有声音指责他们“集邮”“不释放名额”,认为这种展示本身就是一种炫耀。最终讨论失控,当事人删除内容,事件也很快被遗忘。事件二:小红书评论区,一条评价获得了不少共鸣:“感觉牛客就是当年那群做题区毕业了开始找工作还收不住那股味,颇有一种从年级第一掉到年纪第二后抱怨考不上大学的味道”,这条评论被水印里这个同学转发到牛客后,评论...
小型域名服务器:当看到别人比自己强的时候,即便这是对方应得的,很多人会也下意识的歪曲解构对方的意图,来消解自己在这本就不存在的比较中输掉的自信,从而平白制造出很多无谓的争论。比如你会在空余时间来写优质好文,而我回家只会暗区突围,那么我就可以作为键盘侠在这里评论你是不是XXXXXXXX。即便我自己都知道这是假的,但只要这没那么容易证伪,那么当你开始回应的时候,脏水就已经泼出去了,后面可能会有更多的人带着情绪来给我点赞,而毫不关注你写的文章内容本身是啥了。
SAGIMA牛马咖啡
点赞 评论 收藏
分享
01-14 12:34
门头沟学院 C++
点赞 评论 收藏
分享
2025-12-19 15:04
门头沟学院 Java
小肥罗:hr爱上你了,你负责吗哈哈
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务