首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
搜索
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
在线笔面试、雇主品牌宣传
登录
/
注册
小水滴真的是太可爱了吧
获赞
570
粉丝
393
关注
33
看过 TA
259
女
门头沟学院
2021
产品经理
IP属地:上海
暂未填写个人简介
私信
关注
拉黑
举报
举报
确定要拉黑小水滴真的是太可爱了吧吗?
发布(971)
评论
刷题
小水滴真的是太可爱了吧
关注TA,不错过内容更新
关注
2020-09-22 21:37
已编辑
门头沟学院 产品经理
【爬虫学习笔记day25】3.3. 案例一:网站模拟登录
文章目录 3.3. 案例一:网站模拟登录 案例一:网站模拟登录 3.3. 案例一:网站模拟登录 案例一:网站模拟登录 # -*- coding:utf-8 -*- # douban.py #coding=utf-8 import time from selenium import webdriver from selenium.webdriver.common.keys import Keys class Douban(): def __init__(self): self.url = "ht...
0
点赞
评论
收藏
分享
2020-09-22 21:36
已编辑
门头沟学院 产品经理
【爬虫学习笔记day28】3.6. 处理一些格式规范的文字+格式规范文字的理想示例+通过Python代码实现+对图片进行阈值过滤和降噪处理(了解即可)+从网站图片中抓取文字
文章目录 3.6. 处理一些格式规范的文字 处理给规范的文字 格式规范文字的理想示例 通过Python代码实现 对图片进行阈值过滤和降噪处理(了解即可) 从网站图片中抓取文字 3.6. 处理一些格式规范的文字 处理给规范的文字 处理的大多数文字最好都是比较干净、格式规范的。格式规范的文字通常可以满足一些需求,通常格式规范的文字具有以下特点: 使用一个标准字体(不包含手写体、草书,或者十分“花哨的”字体) 即使被复印或拍照,字体还是很清晰,没有多...
0
点赞
评论
收藏
分享
2020-09-22 21:36
门头沟学院 产品经理
【爬虫学习笔记day27】3.5. 机器视觉与Tesseract介绍+ORC库概述+Tesseract+安装Tesseract+安装pytesseract+Windows + Linux+Mac
文章目录 3.5. 机器视觉与Tesseract介绍 机器视觉 ORC库概述 Tesseract 安装Tesseract Windows 系统 Linux 系统 Mac OS X系统 安装pytesseract 3.5. 机器视觉与Tesseract介绍 机器视觉 从 Google 的无人驾驶汽车到可以识别假钞的自动售卖机,机器视觉一直都是一个应用广 泛且具有深远的影响和雄伟的愿景的领域。...
0
点赞
评论
收藏
分享
2020-09-22 21:36
门头沟学院 产品经理
【爬虫学习笔记day26】3.4. 案例二:动态页面模拟点击
文章目录 3.4. 案例二:动态页面模拟点击 案例二:动态页面模拟点击 3.4. 案例二:动态页面模拟点击 案例二:动态页面模拟点击 爬取斗鱼直播平台的所有房间信息: #coding=utf-8 from selenium import webdriver import json import time class Douyu: # 1.发送首页的请求 def __init__(self): self.driver = webdriver.PhantomJS() self.driv...
0
点赞
评论
收藏
分享
2020-09-22 21:35
已编辑
门头沟学院 产品经理
【爬虫学习笔记day29】3.7. 尝试对验证码进行机器识别处理+尝试对知乎网验证码进行处理+尝试处理中文字符
文章目录 3.7. 尝试对验证码进行机器识别处理 尝试对知乎网验证码进行处理: 尝试处理中文字符 3.7. 尝试对验证码进行机器识别处理 尝试对知乎网验证码进行处理: 许多流行的内容管理系统即使加了验证码模块,其众所周知的注册页面也经常会遭到网络 机器人的垃圾注册。 那么,这些网络机器人究,竟是怎么做的呢?既然我们已经,可以成功地识别出保存在电脑上 的验证码了,那么如何才能实现一个全能的网络机器人呢? 大多数网站生成的验证码图片都具有以下属性。 它们是服务器端的程序动态生成的图片。验证码图片的 src 属性可能和...
0
点赞
评论
收藏
分享
2020-09-22 21:35
已编辑
门头沟学院 产品经理
【爬虫学习笔记day30】3.8. 参考阅读:执行JavaScript语句
文章目录 3.8. 参考阅读:执行JavaScript语句 案例三:执行 JavaScript 语句 3.8. 参考阅读:执行JavaScript语句 案例三:执行 JavaScript 语句 隐藏百度图片 from selenium import webdriver driver = webdriver.PhantomJS() driver.get("https://www.baidu.com/") # 给搜索输入框标红的javascript脚本 js = "va...
0
点赞
评论
收藏
分享
2020-09-22 21:35
门头沟学院 产品经理
【爬虫学习笔记day31】3.9. 参考阅读:训练Tesseract+要使用 Tesseract 的功能,比如后面的示例中训练程序识别字母,要先在系统中设置一 个新的环境变量 `$TESSDATA_P
文章目录 3.9. 参考阅读:训练Tesseract 参考阅读:训练Tesseract 要使用 Tesseract 的功能,比如后面的示例中训练程序识别字母,要先在系统中设置一 个新的环境变量 `$TESSDATA_PREFIX`,让 Tesseract 知道训练的数据文件存储在哪里,然后搞一份tessdata数据文件,放到Tesseract目录下。 创建样本库训练Tesseract ...
0
点赞
评论
收藏
分享
2020-09-22 21:34
门头沟学院 产品经理
【爬虫学习笔记day32】4.scrapy框架+Scrapy架构图(绿线是数据流向)+Scrapy的运作流程+制作 Scrapy 爬虫 一共需要4步
文章目录 4.scrapy框架 Scrapy 框架 Scrapy架构图(绿线是数据流向): Scrapy的运作流程 制作 Scrapy 爬虫 一共需要4步: 4.scrapy框架 Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 Scrapy 使用了 Twisted['twɪstɪd]...
0
点赞
评论
收藏
分享
2020-09-22 21:34
已编辑
门头沟学院 产品经理
【爬虫学习笔记day33】4.1. 配置安装scrapy+Scrapy的安装介绍+Windows 安装方式+Ubuntu 需要9.10或以上版本安装方式+具体Scrapy安装流程参考
文章目录 4.1. 配置安装scrapy Scrapy的安装介绍 Windows 安装方式 Ubuntu 需要9.10或以上版本安装方式 具体Scrapy安装流程参考:http://doc.scrapy.org/en/latest/intro/install.html#intro-install-platform-notes 里面有各个平台的安装方法 ...
0
点赞
评论
收藏
分享
2020-09-22 21:34
已编辑
门头沟学院 产品经理
【爬虫学习笔记day34】4.2. 入门案例scrapy+新建项目+明确目标+制作爬虫+爬数据+取数据+保存数据
文章目录 4.2. 入门案例scrapy 入门案例 学习目标 一. 新建项目(scrapy startproject) 二、明确目标(mySpider/items.py) 三、制作爬虫 (spiders/itcastSpider.py) 1. 爬数据 其实也可以由我们自行创建itcast.py并编写上面的代码,只不过使用命令可以免去编写固定代码的麻烦 ...
0
点赞
评论
收藏
分享
2020-09-22 21:33
已编辑
门头沟学院 产品经理
【爬虫学习笔记day35】4.3. Scrapy Shell+启动Scrapy Shell+Selectors选择器+XPath表达式的例子及对应的含义:+Scrapy Selectors 内置 XP
文章目录 4.3. Scrapy Shell Scrapy Shell 启动Scrapy Shell Selectors选择器 Scrapy Selectors 内置 XPath 和 CSS Selector 表达式机制 XPath表达式的例子及对应的含义: 尝试Selector ...
0
点赞
评论
收藏
分享
2020-09-22 21:33
门头沟学院 产品经理
【爬虫学习笔记day36】4.4. Item Pipeline
文章目录 4.4. Item Pipeline Item Pipeline 编写item pipeline 完善之前的案例: item写入JSON文件 启用一个Item Pipeline组件 重新启动爬虫 4.4. Item Pipeline Item Pipeline 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义...
0
点赞
评论
收藏
分享
2020-09-22 21:32
门头沟学院 产品经理
【爬虫学习笔记day37】4.5. Spider+tencent.py
文章目录 4.5. Spider tencent.py 4.5. Spider Spider Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。 class scrapy.Spider是最基本的类,所有编写的爬虫必须继承这个类。 主要用到的函数及调用顺序为: init() : 初始化爬虫名字和start_urls列表 start_requests() 调用make_requests_...
0
点赞
评论
收藏
分享
2020-09-22 21:32
门头沟学院 产品经理
【爬虫学习笔记day38】4.6. CrawlSpider+源码参考+rules+LinkExtractors+爬取规则(Crawling rules)+CrawlSpider 版本+Logging
文章目录 4.6. CrawlSpider CrawlSpiders 源码参考 rules LinkExtractors 爬取规则(Crawling rules) CrawlSpider 版本 Logging Log levels logging设置 4.6. CrawlSpider ...
0
点赞
评论
收藏
分享
2020-09-22 21:32
门头沟学院 产品经理
【爬虫学习笔记day39】4.7. Request/Response+ 发送POST请求+模拟登陆+知乎爬虫案例参考+zhihuSpider.py爬虫代码+Item类设置+setting.py+设置抓
文章目录 4.7. Request/Response Request Response 发送POST请求 模拟登陆 知乎爬虫案例参考: zhihuSpider.py爬虫代码 Item类设置 setting.py 设置抓取间隔 4.7. Request/Response Request Request 部分源码: # 部分代码 class Request(object_ref)...
0
点赞
评论
收藏
分享
1
15
16
17
18
19
65
关注他的用户也关注了:
牛客网
牛客企业服务