首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
搜索
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
在线笔面试、雇主品牌宣传
登录
/
注册
小水滴真的是太可爱了吧
获赞
571
粉丝
394
关注
33
看过 TA
266
女
门头沟学院
2021
产品经理
IP属地:上海
暂未填写个人简介
私信
关注
拉黑
举报
举报
确定要拉黑小水滴真的是太可爱了吧吗?
发布(971)
评论
刷题
收藏
小水滴真的是太可爱了吧
关注TA,不错过内容更新
关注
2020-09-22 21:43
已编辑
门头沟学院 产品经理
【爬虫学习笔记day11】1.9. 参考阅读:urllib:Handler处理器和自定义Opener+ProxyHandler处理器(代理设置)+cookiejar库 和 HTTPCookieProc
文章目录 1.9. 参考阅读:urllib:Handler处理器和自定义Opener Handler处理器 和 自定义Opener 简单的自定义opener() ProxyHandler处理器(代理设置) Cookie Cookie原理 Cookie应用 cookiejar库 和 HTTPCookieProcessor处理器 cookiejar 库 1)获...
0
点赞
评论
收藏
分享
2020-09-22 21:42
门头沟学院 产品经理
【爬虫学习笔记day12】1.10.参考阅读:编码故事+字符是各种文字和符号的总称+字符集包括+ASCII编码+UTF-8+ASCII字符集、GB2312字符集、GB18030字符集
文章目录 1.10. 参考阅读:编码故事 总结: 1.10. 参考阅读:编码故事 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物。他们看到8个开关状态是好的,于是他们把这称为"字节"。 再后来,他们又做了一些可以处理这些字节的机器,机器开动了,可以用字节来组合出很多状态,状态开始变来变去。他们看到这样是好的,于是它们就这机器称为"计算机"。 开始计算...
0
点赞
评论
收藏
分享
2020-09-22 21:42
已编辑
门头沟学院 产品经理
【爬虫学习笔记day13】2.非结构化数据与结构化数据提取+非结构化的数据处理+文本、电话号码、邮箱地址+HTML 文件+结构化的数据处理 +JSON 文件 +XML 文件
文章目录 2.非结构化数据与结构化数据提取 非结构化的数据处理 文本、电话号码、邮箱地址 HTML 文件 结构化的数据处理 JSON 文件 XML 文件 2.非结构化数据与结构化数据提取 页面...
0
点赞
评论
收藏
分享
2020-09-22 21:42
门头沟学院 产品经理
【爬虫学习笔记day14-1】2.1. 正则表达式re模块+正则表达式+Python 的 re 模块+compile 函数+match+search+findall+finditer+split+
文章目录 2.1. 正则表达式re模块 为什么要学正则表达式 什么是正则表达式 正则表达式匹配规则 Python 的 re 模块 re 模块的一般使用步骤如下: compile 函数 match 方法 ------------------------------------------------------------------------------------------------------ search 方法 ----------------------...
0
点赞
评论
收藏
分享
2020-09-22 21:41
门头沟学院 产品经理
【爬虫学习笔记day14-2】2.2. 案例:使用正则表达式的爬虫+获取数据+筛选数据+保存数据+实现循环抓取+我们第一页的全部段子,不包含其他信息全部的打印了出来+按照我们之前的用法,我们需要写一个
文章目录 2.2. 案例:使用正则表达式的爬虫 案例:使用正则表达式的爬虫 第一步:获取数据 1. 按照我们之前的用法,我们需要写一个加载页面的方法。 第二步:筛选数据 我们需要一个匹配规则: 我们第一页的全部段子,不包含其他信息全部的打印了出来。 第三步:保存数据 第四步:实现循环抓取 动手 2.2. 案例:使用正则表达式的爬虫 案例:使用正则表达式的爬虫 现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代...
0
点赞
评论
收藏
分享
2020-09-22 21:41
已编辑
门头沟学院 产品经理
【爬虫学习笔记day15】2.3. XPath与lxml类库+XML 和 HTML 的区别+XML的节点关系+XPath 开发工具+lxml库+XML文档示例 HTML+ DOM 模型示例
文章目录 2.3. XPath与lxml类库 什么是XML XML 和 HTML 的区别 XML文档示例 HTML DOM 模型示例 XML的节点关系 1. 父(Parent) 2. 子(Children) 3. 同胞(Sibling) 4. 先辈(Ancestor) ...
0
点赞
评论
收藏
分享
2020-09-22 21:40
已编辑
门头沟学院 产品经理
【爬虫学习笔记day16】2.4. 案例:使用XPath的爬虫
文章目录 2.4. 案例:使用XPath的爬虫 案例:使用XPath的爬虫 2.4. 案例:使用XPath的爬虫 案例:使用XPath的爬虫 现在我们用XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子,并且将该这个帖子里每个楼层发布的图片下载到本地。 #coding=utf-8 import requests from lxml import etree import json class Tieba: def __init__(self,tieba_name): self.tieba_name = tieba_n...
0
点赞
评论
收藏
分享
2020-09-22 21:40
门头沟学院 产品经理
【爬虫学习笔记day17】2.5. JSON模块与JsonPath+数据提取之JSON与JsonPATH+JSON+import json+JsonPath(了解)+JsonPath与XPath语法对
文章目录 2.5. JSON模块与JsonPath 数据提取之JSON与JsonPATH JSON import json 1. json.loads() 2. json.dumps() 3. json.dump() 4. json.load() JsonPath(了解) JsonPath与XPath语法对比: 示例: 2.5. JSON模块与JsonPath 数据提取之JSON与JsonPATH JSON(JavaScript Object Nota...
0
点赞
评论
收藏
分享
2020-09-22 21:39
已编辑
门头沟学院 产品经理
【爬虫学习笔记day18】2.6. 糗事百科案例+要求+ 参考代码 +演示效果
文章目录 2.6. 糗事百科案例 糗事百科实例: 要求: 参考代码 演示效果 2.6. 糗事百科案例 糗事百科实例: 爬取糗事百科段子,假设页面的URL是 http://www.qiushibaike.com/8hr/page/1 要求: 使用requests获取页面信息,用XPath / re 做数据提取 获取每个帖子里的用户头像链接、用户姓名、段子内容、点赞次数和评论次数 保存到 json 文件内 参考代码 #coding=utf-8 import ...
0
点赞
评论
收藏
分享
2020-09-22 21:39
门头沟学院 产品经理
【爬虫学习笔记day19】2.7. 多线程爬虫案例+多线程糗事百科案例 +Queue(队列对象) +多线程示意图
文章目录 2.7. 多线程爬虫案例 多线程糗事百科案例 Queue(队列对象) 多线程示意图 2.7. 多线程爬虫案例 多线程糗事百科案例 案例要求参考上一个糗事百科单进程案例 Queue(队列对象) Queue是python中的标准库,可以直接import Queue引用;队列是线程间最常用的交换数据的形式 python下多线程的思考 对于资源,加锁是个重要的环节。因为python原生的list,dict等,都是not thread safe的。而Queue,是线程...
0
点赞
评论
收藏
分享
2020-09-22 21:39
已编辑
门头沟学院 产品经理
【爬虫学习笔记day20】2.8. 参考阅读:BeautifulSoup4 解析器+CSS 选择器:BeautifulSoup4+四大对象种类+遍历文档树+搜索文档树+CSS选择器+find_all(
文章目录 2.8. 参考阅读:BeautifulSoup4 解析器 CSS 选择器:BeautifulSoup4 示例: 四大对象种类 1. Tag 对于 Tag,它有两个重要的属性,是 name 和 attrs 2. NavigableString 3. BeautifulSoup 4. Comment 遍历文档树 ...
0
点赞
评论
收藏
分享
2020-09-22 21:38
已编辑
门头沟学院 产品经理
【爬虫学习笔记day21】2.9. 参考阅读:案例:使用bs4的爬虫+案例:使用BeautifuSoup4的爬虫
文章目录 2.9. 参考阅读:案例:使用bs4的爬虫 案例:使用BeautifuSoup4的爬虫 2.9. 参考阅读:案例:使用bs4的爬虫 案例:使用BeautifuSoup4的爬虫 我们以腾讯社招页面来做演示:http://hr.tencent.com/position.php?&start=10#a 使用BeautifuSoup4解析器,将招聘网页上的职位名称、职位类别、招聘人数、工作地点、发布时间,以及每个职位详情的点击链接存储出来。 ![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LwSv2WCr-...
0
点赞
评论
收藏
分享
2020-09-22 21:38
门头沟学院 产品经理
【爬虫学习笔记day22】3.动态HTML处理和机器图像识别+爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider) 之间恢宏壮阔的斗争...+建议
文章目录 3.动态HTML处理和机器图像识别 爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider) 之间恢宏壮阔的斗争... Day 1 Day 2 Day 3 Day 4 Day 5 爬虫与发爬虫的斗争还在继续... 关于爬虫部分一些建议: 关于反爬虫部分的一些建议: 3.动态HTML处理...
0
点赞
评论
收藏
分享
2020-09-22 21:38
门头沟学院 产品经理
【爬虫学习笔记day23】3.1. 动态HTML介绍+JavaScript +jQuery +Ajax+DHTML
文章目录 3.1. 动态HTML介绍 JavaScript jQuery Ajax DHTML 那么,如何搞定? 3.1. 动态HTML介绍 JavaScript JavaScript 是网络上最常用也是支持者最多的客户端脚本语言。它可以收集 用户的跟踪数据,不需要重载页面直接提交表单,在页面嵌入多媒体文件,甚至运行网页游戏。 我们可以在网页源代码的<scripy>标签里看到,比如: <script type="text/javascript" src=&q...
0
点赞
评论
收藏
分享
2020-09-22 21:37
已编辑
门头沟学院 产品经理
【爬虫学习笔记day24】3.2. Selenium与PhantomJS+快速入门+页面操作+鼠标动作链+填充表单+弹窗处理+页面切换+页面前进和后退+Cookies+页面等待显式等待+隐式等待
文章目录 3.2. Selenium与PhantomJS Selenium PhantomJS 快速入门 页面操作 定位UI元素 (WebElements) 关于元素的选取,有如下的API 单个元素选取 鼠标动作链 填充表单 弹窗处理 页面切换 页面前进和后退 Cookies 页面等待 ...
0
点赞
评论
收藏
分享
1
14
15
16
17
18
65
创作者周榜
更多
关注他的用户也关注了:
牛客网
牛客企业服务