网络爬虫与 http+ssl(1)


端口

查看 IP 的方式:打开命令行输入 cmd,然后在端口中输入 ipconfig,可以看到 IP 地址

端口号 mysql 3306 mongodb 27017 nosql,端口号为独立标识

通讯协议

TCP 通信协议/IP 协议/Robot 协议(规定爬虫不能爬取这个协议的文件)在 srapy 框架

超文本传输协议,端口 80(HTTP 协议)设置—网络—属性—看到已安装的协议,可以在这里添加新的协议

osm 模型

⽬标 Objective;策略 Strategy;衡量指标 Measurement

OSM 模型,就是把宏⼤的⽬标拆解,对应到部门内各个⼩组具体的、可落地、可度量的⾏为上,从保证执⾏计划没有偏离⼤⽅向。


封包与解包的过程

http 访问更快因为是明文传输就是不需加密,国家税务总局就是 http,是没有加证书的

https=http+ssl 为加密的过程,是一个安全版的访问过程,是加了证书的

HTTP 请求与响应

客户端的请求与进行与服务器的请求与进行,个人手机电脑是客户端

全球统一资源定位符(URL)

html 文件,学了前端才能看懂源代码,网页会根据 HTML

css 文件处理格式,位置

js 处理跳转,点击事件,动画效果,走马灯

images 文件,图片存放点

(F12 弹出抓包工具)

(Ctrl+u 页面源码)


抓包工具

elements 元素

console 控制台,js 语法(全称 javascript)

sources 资源(js 解密用)

network 网络数据包 XHR 动态加载

这个如果是动态页面这个 request 就要使用 Ajax 请求动态加载 json 文件数据(Ajax 异步加载)静态页面的网页都在源代码中。

爬虫就是模拟人去访问浏览器,避免让系统默认为自动化的爬虫程序

general 全部的请求头

response headers 服务器的是交投

request headers 请求对象的请求头客户端的请求

host 主机和端口号

user—agent 标识,如果不带服务器,会认为你是一个自动化的爬虫程序

cookie 有时间限制(动态)记录用户信息

referer 副级的 URL


请求方式

GET 请求 (用于向服务器查询某些信息)

POST 请求(数据隐藏)Payload—form data 隐藏的数据,百度翻译为 post 请求


红点

stop recording network log 停止记录网络日志

clear,清空网络日志

preserve log,保留日志

disable cache 禁用缓存(js 逆向需要进行调试用)

#python爬虫#
全部评论
就很羡慕会爬虫的
点赞 回复 分享
发布于 2022-08-30 21:44 陕西

相关推荐

1 收藏 评论
分享
牛客网
牛客企业服务