要offer不要饭

2019-08-22 18:46 已编辑门头沟学院数据分析师

关注

使用 Selenium 爬取斗鱼直播数据（2019最新）

环境：Win10 需要安装 Chromedriver

Chromedriver下载（需对应浏览器的版本）

这些是我最近在学 selenium 模块爬取得斗鱼直播数据，以下爬取的是图片、详情地址、标题、类别、观看热度、主播。

以下也提供了代码作参考：

#!/usr/bin/env python3 # -*- coding:UTF-8 -*- __author__ = 'Jachin' from selenium import webdriver from retrying import retry import time import json class DouYu(): def __init__(self): self.start_url = 'https://www.douyu.com/directory/all' self.driver = webdriver.Chrome()  @retry(stop_max_attempt_number=5)  # 尝试多次请求 def get_content_list(self): li_list = self.driver.find_elements_by_xpath("//ul[@class='layout-Cover-list']/li")
        content_list = [] for li in li_list:
            item = {}
            item["img"] = li.find_element_by_xpath(".//img[@class='DyImg-content is-normal ']").get_attribute('src')
            item['url'] = li.find_element_by_xpath(".//a[@class='DyListCover-wrap']").get_attribute('href')
            item['title'] = li.find_element_by_xpath(".//h3[@class='DyListCover-intro']").get_attribute('title')
            item['categroies'] = li.find_element_by_xpath(".//span[@class='DyListCover-zone']").text
            item['watch_num'] = li.find_element_by_xpath(".//span[@class='DyListCover-hot']").text
            item['anchor'] = li.find_element_by_xpath(".//h2[@class='DyListCover-user']").text
            print(item)
            content_list.append(item) # 提取下一页元素 next_url = self.driver.find_elements_by_xpath("//span[@class='dy-Pagination-item-custom']")
        next_url = next_url[0] if len(next_url) > 0 else None return content_list, next_url def save_content_list(self, content_list): with open('douyu2.txt', 'a', encoding='utf-8')as f: for content in content_list:
                f.write(json.dumps(content, ensure_ascii=False))
                f.write("\n")
        print("已保存成功") def run(self): # 1. 准备url # 2. 发送请求,获取响应 self.driver.get(self.start_url) # 3. 提取数据,提取下一页的元素 content_list, next_url = self.get_content_list() # 4. 保存 self.save_content_list(content_list) # 5. 点击下一页，数据的提取循环 while next_url is not None:
            next_url.click() # 页面没有完全加载完,会报错 time.sleep(2)
            content_list, next_url = self.get_content_list()
            self.save_content_list(content_list) if __name__ == '__main__':
    douyu = DouYu()
    douyu.run()

最后附上一张爬取成功的图片：

斗鱼爬取结果

公众号：码之成长

完结撒花~~

全部评论

推荐最新楼层

10-09 15:44

中国科学技术大学大数据开发工程师

小红书数据平台数开二面1009

35分钟，感觉要凉上来5分钟自我介绍，然后15分钟手撕1.查询最近一年连续登陆超过7天的用户字段user_id login_date基本题了，秒了。10分钟问实习2.实习中业务项目从数仓建模到落实的每个环节行动（正常回答）3.你觉得数仓建设的标准是什么，怎么判断数仓做的好还是不好（应该是贴近业务、数据准确、灵活拓展）4.了解一些大数据引擎的原理和源码吗（开始懵逼，说了个spark）5.对spark的原理讲述（讲了一通）然后面试官说没问题了，让我反问（g）反问业务、加ai的浪潮、作息、可以提升的点（对大数据引擎更了解一些）

查看5道真题和解析

点赞评论收藏

分享

10-06 13:35

门头沟学院嵌入式工程师

实习未离职参加别的公司面试担心hr问还在不在职怎么回答呀？

现在的公司比较清闲，感觉上升空间不大，所以想跳槽去大厂试试。但目前我还在实习期，担心 HR 会因为这一点直接拒绝发 Offer。9月中旬之后投了好几家，但都石沉大海了……现在有点迷茫，不知道该怎么办。

26届的你，投了哪些公司...

点赞评论收藏

分享

09-17 17:09

门头沟学院 Java

收到秋招offer了

但是—————要！提！前！实！习！ 好纠结啊，还没敢回消息

雨忄：有人给出过解法，拖晚点去，然后到时候再找其他理由商量，既增加他们的筛人成本，不一定会给你收回offer ，也能占位避免工贼

秋招的嫡长offer

点赞评论收藏

分享

10-05 21:58

广西职业师范学院 Java

像这种破学校破简历是不是找不到实习了

像这种破学校破简历是不是找不到实习了

在看牛客的社畜很积极：身高体重那一行信息去掉，学校那一行的信息放上面，找半天都没找到你是哪个学校什么专业的

点赞评论收藏

分享

10-13 14:18

门头沟学院 C++

川渝人offer选择，急！！！

👋个人背景：本2硕9，川渝人，offer1马上让签了，其他两个还没开出来，但是想发出来问问。offer1：国机重装，央企，base成都，机械设计岗位，总包n-5，一次性安家费14w，房价大概是重庆的1.5倍，朝九晚五双休。👏offer2：联合电子，base重庆，嵌入式开发岗，总包大概n，联电感觉学到的东西很多，岗位可能好一点，后面更好跳槽，而且离家近。💯offer3：卓驭科技，base深圳，总包参考去年大概2n，具体岗位不说了，也是技术岗，但可能工作内容更多是对接，以及流程体系方面的一些工作，开发可能比较少甚至没有，担心后面不好跳槽。

牛客60222160...：你都打100分了，还问

点赞评论收藏

分享

评论

点赞

1

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 实习在多还是在精 #

9386次浏览 113人参与

# 反问环节如何提问 #

108723次浏览 2114人参与

# 爱玛科技集团求职进展汇总 #

31631次浏览 212人参与

# 你见过哪些工贼行为 #

6716次浏览 47人参与

# 实习下班不想学习，正常吗？ #

7749次浏览 109人参与

# 找工作中的小确幸 #

17068次浏览 164人参与

# 我的求职进度条 #

4553次浏览 59人参与

# 运营每日一题 #

102930次浏览 865人参与

# 秋招踩过的“雷”，希望你别再踩 #

33527次浏览 439人参与

# 校招谈薪一定要知道的事 #

6163次浏览 81人参与

# 你觉得什么岗位会被AI替代 #

9437次浏览 129人参与

# 远程面试的尴尬瞬间 #

190827次浏览 1253人参与

# 设计人的面试记录 #

156447次浏览 1513人参与

# 工作中，努力重要还是选择重要？ #

201499次浏览 2046人参与

# 顺丰求职进展汇总 #

60412次浏览 298人参与

# 社会教会你的第一课 #

106008次浏览 852人参与

# 选完offer后，你后悔学机械吗？ #

40204次浏览 243人参与

# 面试时最害怕被问到的问题 #

628640次浏览 8578人参与

# 实习最想跑路的瞬间 #

82912次浏览 526人参与

# 面包vs爱情，怎么选？ #

20564次浏览 234人参与

# 浪潮求职进展汇总 #

18443次浏览 140人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务