小水滴真的是太可爱了吧 - 个人主页动态 - 牛客网

发布(971) 评论刷题收藏

2020-09-22 21:43

已编辑

门头沟学院产品经理

【爬虫学习笔记day11】1.9. 参考阅读：urllib：Handler处理器和自定义Opener+ProxyHandler处理器（代理设置）+cookiejar库和 HTTPCookieProc

文章目录 1.9. 参考阅读：urllib：Handler处理器和自定义Opener Handler处理器 和 自定义Opener 简单的自定义opener() ProxyHandler处理器（代理设置） Cookie Cookie原理 Cookie应用 cookiejar库 和 HTTPCookieProcessor处理器 cookiejar 库 1）获...

0 点赞评论收藏

分享

2020-09-22 21:42

门头沟学院产品经理

【爬虫学习笔记day12】1.10.参考阅读：编码故事+字符是各种文字和符号的总称+字符集包括+ASCII编码+UTF-8+ASCII字符集、GB2312字符集、GB18030字符集

文章目录 1.10. 参考阅读：编码故事 总结： 1.10. 参考阅读：编码故事 很久很久以前，有一群人，他们决定用8个可以开合的晶体管来组合成不同的状态，以表示世界上的万物。他们看到8个开关状态是好的，于是他们把这称为"字节"。 再后来，他们又做了一些可以处理这些字节的机器，机器开动了，可以用字节来组合出很多状态，状态开始变来变去。他们看到这样是好的，于是它们就这机器称为"计算机"。 开始计算...

0 点赞评论收藏

分享

2020-09-22 21:42

已编辑

门头沟学院产品经理

【爬虫学习笔记day13】2.非结构化数据与结构化数据提取+非结构化的数据处理+文本、电话号码、邮箱地址+HTML 文件+结构化的数据处理 +JSON 文件 +XML 文件

文章目录 2.非结构化数据与结构化数据提取 非结构化的数据处理 文本、电话号码、邮箱地址 HTML 文件 结构化的数据处理 JSON 文件 XML 文件 2.非结构化数据与结构化数据提取 页面...

0 点赞评论收藏

分享

2020-09-22 21:42

门头沟学院产品经理

【爬虫学习笔记day14-1】2.1. 正则表达式re模块+正则表达式+Python 的 re 模块+compile 函数+match+search+findall+finditer+split+

文章目录 2.1. 正则表达式re模块 为什么要学正则表达式 什么是正则表达式 正则表达式匹配规则 Python 的 re 模块 re 模块的一般使用步骤如下： compile 函数 match 方法 ------------------------------------------------------------------------------------------------------ search 方法 ----------------------...

0 点赞评论收藏

分享

2020-09-22 21:41

门头沟学院产品经理

【爬虫学习笔记day14-2】2.2. 案例：使用正则表达式的爬虫+获取数据+筛选数据+保存数据+实现循环抓取+我们第一页的全部段子，不包含其他信息全部的打印了出来+按照我们之前的用法，我们需要写一个

文章目录 2.2. 案例：使用正则表达式的爬虫 案例：使用正则表达式的爬虫 第一步：获取数据 1. 按照我们之前的用法，我们需要写一个加载页面的方法。 第二步：筛选数据 我们需要一个匹配规则: 我们第一页的全部段子，不包含其他信息全部的打印了出来。 第三步：保存数据 第四步：实现循环抓取 动手 2.2. 案例：使用正则表达式的爬虫 案例：使用正则表达式的爬虫 现在拥有了正则表达式这把神兵利器，我们就可以进行对爬取到的全部网页源代...

0 点赞评论收藏

分享

2020-09-22 21:41

已编辑

门头沟学院产品经理

【爬虫学习笔记day15】2.3. XPath与lxml类库+XML 和 HTML 的区别+XML的节点关系+XPath 开发工具+lxml库+XML文档示例 HTML+ DOM 模型示例

文章目录 2.3. XPath与lxml类库 什么是XML XML 和 HTML 的区别 XML文档示例 HTML DOM 模型示例 XML的节点关系 1. 父（Parent） 2. 子（Children） 3. 同胞（Sibling） 4. 先辈（Ancestor） ...

0 点赞评论收藏

分享

2020-09-22 21:40

已编辑

门头沟学院产品经理

【爬虫学习笔记day16】2.4. 案例：使用XPath的爬虫

文章目录 2.4. 案例：使用XPath的爬虫 案例：使用XPath的爬虫 2.4. 案例：使用XPath的爬虫 案例：使用XPath的爬虫 现在我们用XPath来做一个简单的爬虫，我们尝试爬取某个贴吧里的所有帖子，并且将该这个帖子里每个楼层发布的图片下载到本地。 #coding=utf-8 import requests from lxml import etree import json class Tieba: def __init__(self,tieba_name): self.tieba_name = tieba_n...

0 点赞评论收藏

分享

2020-09-22 21:40

门头沟学院产品经理

【爬虫学习笔记day17】2.5. JSON模块与JsonPath+数据提取之JSON与JsonPATH+JSON+import json+JsonPath（了解）+JsonPath与XPath语法对

文章目录 2.5. JSON模块与JsonPath 数据提取之JSON与JsonPATH JSON import json 1. json.loads() 2. json.dumps() 3. json.dump() 4. json.load() JsonPath（了解） JsonPath与XPath语法对比： 示例： 2.5. JSON模块与JsonPath 数据提取之JSON与JsonPATH JSON(JavaScript Object Nota...

0 点赞评论收藏

分享

2020-09-22 21:39

已编辑

门头沟学院产品经理

【爬虫学习笔记day18】2.6. 糗事百科案例+要求+ 参考代码 +演示效果

文章目录 2.6. 糗事百科案例 糗事百科实例： 要求： 参考代码 演示效果 2.6. 糗事百科案例 糗事百科实例： 爬取糗事百科段子，假设页面的URL是 http://www.qiushibaike.com/8hr/page/1 要求： 使用requests获取页面信息，用XPath / re 做数据提取 获取每个帖子里的用户头像链接、用户姓名、段子内容、点赞次数和评论次数 保存到 json 文件内 参考代码 #coding=utf-8 import ...

0 点赞评论收藏

分享

2020-09-22 21:39

门头沟学院产品经理

【爬虫学习笔记day19】2.7. 多线程爬虫案例+多线程糗事百科案例 +Queue（队列对象） +多线程示意图

文章目录 2.7. 多线程爬虫案例 多线程糗事百科案例 Queue（队列对象） 多线程示意图 2.7. 多线程爬虫案例 多线程糗事百科案例 案例要求参考上一个糗事百科单进程案例 Queue（队列对象） Queue是python中的标准库，可以直接import Queue引用;队列是线程间最常用的交换数据的形式 python下多线程的思考 对于资源，加锁是个重要的环节。因为python原生的list,dict等，都是not thread safe的。而Queue，是线程...

0 点赞评论收藏

分享

2020-09-22 21:39

已编辑

门头沟学院产品经理

【爬虫学习笔记day20】2.8. 参考阅读：BeautifulSoup4 解析器+CSS 选择器：BeautifulSoup4+四大对象种类+遍历文档树+搜索文档树+CSS选择器+find_all(

文章目录 2.8. 参考阅读：BeautifulSoup4 解析器 CSS 选择器：BeautifulSoup4 示例： 四大对象种类 1. Tag 对于 Tag，它有两个重要的属性，是 name 和 attrs 2. NavigableString 3. BeautifulSoup 4. Comment 遍历文档树 ...

0 点赞评论收藏

分享

2020-09-22 21:38

已编辑

门头沟学院产品经理

【爬虫学习笔记day21】2.9. 参考阅读：案例：使用bs4的爬虫+案例：使用BeautifuSoup4的爬虫

文章目录 2.9. 参考阅读：案例：使用bs4的爬虫 案例：使用BeautifuSoup4的爬虫 2.9. 参考阅读：案例：使用bs4的爬虫 案例：使用BeautifuSoup4的爬虫 我们以腾讯社招页面来做演示：http://hr.tencent.com/position.php?&start=10#a 使用BeautifuSoup4解析器，将招聘网页上的职位名称、职位类别、招聘人数、工作地点、发布时间，以及每个职位详情的点击链接存储出来。 ![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LwSv2WCr-...

0 点赞评论收藏

分享

2020-09-22 21:38

门头沟学院产品经理

【爬虫学习笔记day22】3.动态HTML处理和机器图像识别+爬虫(Spider)，反爬虫(Anti-Spider)，反反爬虫(Anti-Anti-Spider) 之间恢宏壮阔的斗争...+建议

文章目录 3.动态HTML处理和机器图像识别 爬虫(Spider)，反爬虫(Anti-Spider)，反反爬虫(Anti-Anti-Spider) 之间恢宏壮阔的斗争... Day 1 Day 2 Day 3 Day 4 Day 5 爬虫与发爬虫的斗争还在继续... 关于爬虫部分一些建议： 关于反爬虫部分的一些建议： 3.动态HTML处理...

0 点赞评论收藏

分享

2020-09-22 21:38

门头沟学院产品经理

【爬虫学习笔记day23】3.1. 动态HTML介绍+JavaScript +jQuery +Ajax+DHTML

文章目录 3.1. 动态HTML介绍 JavaScript jQuery Ajax DHTML 那么，如何搞定？ 3.1. 动态HTML介绍 JavaScript JavaScript 是网络上最常用也是支持者最多的客户端脚本语言。它可以收集 用户的跟踪数据,不需要重载页面直接提交表单，在页面嵌入多媒体文件，甚至运行网页游戏。 我们可以在网页源代码的<scripy>标签里看到，比如： <script type="text/javascript" src=&q...

0 点赞评论收藏

分享

2020-09-22 21:37

已编辑

门头沟学院产品经理

【爬虫学习笔记day24】3.2. Selenium与PhantomJS+快速入门+页面操作+鼠标动作链+填充表单+弹窗处理+页面切换+页面前进和后退+Cookies+页面等待显式等待+隐式等待

文章目录 3.2. Selenium与PhantomJS Selenium PhantomJS 快速入门 页面操作 定位UI元素 (WebElements) 关于元素的选取，有如下的API 单个元素选取 鼠标动作链 填充表单 弹窗处理 页面切换 页面前进和后退 Cookies 页面等待 ...

0 点赞评论收藏

分享

创作者周榜

更多

关注他的用户也关注了：

牛客网
牛客企业服务