小水滴真的是太可爱了吧 - 个人主页动态 - 牛客网

发布(971) 评论刷题收藏

2020-09-22 21:37

已编辑

门头沟学院产品经理

【爬虫学习笔记day25】3.3. 案例一：网站模拟登录

文章目录 3.3. 案例一：网站模拟登录 案例一：网站模拟登录 3.3. 案例一：网站模拟登录 案例一：网站模拟登录 # -*- coding:utf-8 -*- # douban.py #coding=utf-8 import time from selenium import webdriver from selenium.webdriver.common.keys import Keys class Douban(): def __init__(self): self.url = "ht...

0 点赞评论收藏

分享

2020-09-22 21:36

已编辑

门头沟学院产品经理

【爬虫学习笔记day28】3.6. 处理一些格式规范的文字+格式规范文字的理想示例+通过Python代码实现+对图片进行阈值过滤和降噪处理（了解即可）+从网站图片中抓取文字

文章目录 3.6. 处理一些格式规范的文字 处理给规范的文字 格式规范文字的理想示例 通过Python代码实现 对图片进行阈值过滤和降噪处理（了解即可） 从网站图片中抓取文字 3.6. 处理一些格式规范的文字 处理给规范的文字 处理的大多数文字最好都是比较干净、格式规范的。格式规范的文字通常可以满足一些需求，通常格式规范的文字具有以下特点: 使用一个标准字体(不包含手写体、草书,或者十分“花哨的”字体) 即使被复印或拍照，字体还是很清晰，没有多...

0 点赞评论收藏

分享

2020-09-22 21:36

门头沟学院产品经理

【爬虫学习笔记day27】3.5. 机器视觉与Tesseract介绍+ORC库概述+Tesseract+安装Tesseract+安装pytesseract+Windows + Linux+Mac

文章目录 3.5. 机器视觉与Tesseract介绍 机器视觉 ORC库概述 Tesseract 安装Tesseract Windows 系统 Linux 系统 Mac OS X系统 安装pytesseract 3.5. 机器视觉与Tesseract介绍 机器视觉 从 Google 的无人驾驶汽车到可以识别假钞的自动售卖机，机器视觉一直都是一个应用广 泛且具有深远的影响和雄伟的愿景的领域。...

0 点赞评论收藏

分享

2020-09-22 21:36

门头沟学院产品经理

【爬虫学习笔记day26】3.4. 案例二：动态页面模拟点击

文章目录 3.4. 案例二：动态页面模拟点击 案例二：动态页面模拟点击 3.4. 案例二：动态页面模拟点击 案例二：动态页面模拟点击 爬取斗鱼直播平台的所有房间信息： #coding=utf-8 from selenium import webdriver import json import time class Douyu: # 1.发送首页的请求 def __init__(self): self.driver = webdriver.PhantomJS() self.driv...

0 点赞评论收藏

分享

2020-09-22 21:35

已编辑

门头沟学院产品经理

【爬虫学习笔记day29】3.7. 尝试对验证码进行机器识别处理+尝试对知乎网验证码进行处理+尝试处理中文字符

文章目录 3.7. 尝试对验证码进行机器识别处理 尝试对知乎网验证码进行处理： 尝试处理中文字符 3.7. 尝试对验证码进行机器识别处理 尝试对知乎网验证码进行处理： 许多流行的内容管理系统即使加了验证码模块，其众所周知的注册页面也经常会遭到网络 机器人的垃圾注册。 那么，这些网络机器人究，竟是怎么做的呢?既然我们已经，可以成功地识别出保存在电脑上 的验证码了，那么如何才能实现一个全能的网络机器人呢? 大多数网站生成的验证码图片都具有以下属性。 它们是服务器端的程序动态生成的图片。验证码图片的 src 属性可能和...

0 点赞评论收藏

分享

2020-09-22 21:35

已编辑

门头沟学院产品经理

【爬虫学习笔记day30】3.8. 参考阅读：执行JavaScript语句

文章目录 3.8. 参考阅读：执行JavaScript语句 案例三：执行 JavaScript 语句 3.8. 参考阅读：执行JavaScript语句 案例三：执行 JavaScript 语句 隐藏百度图片 from selenium import webdriver driver = webdriver.PhantomJS() driver.get("https://www.baidu.com/") # 给搜索输入框标红的javascript脚本 js = "va...

0 点赞评论收藏

分享

2020-09-22 21:35

门头沟学院产品经理

【爬虫学习笔记day31】3.9. 参考阅读：训练Tesseract+要使用 Tesseract 的功能，比如后面的示例中训练程序识别字母，要先在系统中设置一个新的环境变量 `$TESSDATA_P

文章目录 3.9. 参考阅读：训练Tesseract 参考阅读：训练Tesseract 要使用 Tesseract 的功能，比如后面的示例中训练程序识别字母，要先在系统中设置一 个新的环境变量 `$TESSDATA_PREFIX`，让 Tesseract 知道训练的数据文件存储在哪里，然后搞一份tessdata数据文件，放到Tesseract目录下。 创建样本库训练Tesseract ...

0 点赞评论收藏

分享

2020-09-22 21:34

门头沟学院产品经理

【爬虫学习笔记day32】4.scrapy框架+Scrapy架构图(绿线是数据流向)+Scrapy的运作流程+制作 Scrapy 爬虫一共需要4步

文章目录 4.scrapy框架 Scrapy 框架 Scrapy架构图(绿线是数据流向)： Scrapy的运作流程 制作 Scrapy 爬虫 一共需要4步： 4.scrapy框架 Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。 框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。 Scrapy 使用了 Twisted['twɪstɪd]...

0 点赞评论收藏

分享

2020-09-22 21:34

已编辑

门头沟学院产品经理

【爬虫学习笔记day33】4.1. 配置安装scrapy+Scrapy的安装介绍+Windows 安装方式+Ubuntu 需要9.10或以上版本安装方式+具体Scrapy安装流程参考

文章目录 4.1. 配置安装scrapy Scrapy的安装介绍 Windows 安装方式 Ubuntu 需要9.10或以上版本安装方式 具体Scrapy安装流程参考：http://doc.scrapy.org/en/latest/intro/install.html#intro-install-platform-notes 里面有各个平台的安装方法 ...

0 点赞评论收藏

分享

2020-09-22 21:34

已编辑

门头沟学院产品经理

【爬虫学习笔记day34】4.2. 入门案例scrapy+新建项目+明确目标+制作爬虫+爬数据+取数据+保存数据

文章目录 4.2. 入门案例scrapy 入门案例 学习目标 一. 新建项目(scrapy startproject) 二、明确目标(mySpider/items.py) 三、制作爬虫 （spiders/itcastSpider.py） 1. 爬数据 其实也可以由我们自行创建itcast.py并编写上面的代码，只不过使用命令可以免去编写固定代码的麻烦 ...

0 点赞评论收藏

分享

2020-09-22 21:33

已编辑

门头沟学院产品经理

【爬虫学习笔记day35】4.3. Scrapy Shell+启动Scrapy Shell+Selectors选择器+XPath表达式的例子及对应的含义:+Scrapy Selectors 内置 XP

文章目录 4.3. Scrapy Shell Scrapy Shell 启动Scrapy Shell Selectors选择器 Scrapy Selectors 内置 XPath 和 CSS Selector 表达式机制 XPath表达式的例子及对应的含义: 尝试Selector ...

0 点赞评论收藏

分享

2020-09-22 21:33

门头沟学院产品经理

【爬虫学习笔记day36】4.4. Item Pipeline

文章目录 4.4. Item Pipeline Item Pipeline 编写item pipeline 完善之前的案例： item写入JSON文件 启用一个Item Pipeline组件 重新启动爬虫 4.4. Item Pipeline Item Pipeline 当Item在Spider中被收集之后，它将会被传递到Item Pipeline，这些Item Pipeline组件按定义...

0 点赞评论收藏

分享

2020-09-22 21:32

门头沟学院产品经理

【爬虫学习笔记day37】4.5. Spider+tencent.py

文章目录 4.5. Spider tencent.py 4.5. Spider Spider Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说，Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。 class scrapy.Spider是最基本的类，所有编写的爬虫必须继承这个类。 主要用到的函数及调用顺序为： init() : 初始化爬虫名字和start_urls列表 start_requests() 调用make_requests_...

0 点赞评论收藏

分享

2020-09-22 21:32

门头沟学院产品经理

【爬虫学习笔记day38】4.6. CrawlSpider+源码参考+rules+LinkExtractors+爬取规则(Crawling rules)+CrawlSpider 版本+Logging

文章目录 4.6. CrawlSpider CrawlSpiders 源码参考 rules LinkExtractors 爬取规则(Crawling rules) CrawlSpider 版本 Logging Log levels logging设置 4.6. CrawlSpider ...

0 点赞评论收藏

分享

2020-09-22 21:32

门头沟学院产品经理

【爬虫学习笔记day39】4.7. Request/Response+ 发送POST请求+模拟登陆+知乎爬虫案例参考+zhihuSpider.py爬虫代码+Item类设置+setting.py+设置抓

文章目录 4.7. Request/Response Request Response 发送POST请求 模拟登陆 知乎爬虫案例参考： zhihuSpider.py爬虫代码 Item类设置 setting.py 设置抓取间隔 4.7. Request/Response Request Request 部分源码： # 部分代码 class Request(object_ref)...

0 点赞评论收藏

分享

创作者周榜

更多

关注他的用户也关注了：

牛客网
牛客企业服务