爬虫的这些东西你知道吗
#牛客创作赏金赛##牛客激励计划#今天上级跟我说之前做的一个项目需要优化,大概问题就是从网页上打开项目源代码,源代码前面有很多css代码,他说这样不利于爬虫,别人搜我们的网站上的东西就会搜不到,因为爬虫有字数限制,前面的css太多,主要的content就会爬不到了,让我去优化一下这个bug,感觉很新奇他说爬虫的时候,之前略有了解,今天特意去重新搜了一下关于爬虫的知识,欢迎各位牛爷爷牛奶奶牛婶婶牛叔叔牛哥哥牛姐姐来评论区交流!!!!

1.核心:偷数据但别被抓
2.步骤:
a. 模拟“人”的行为上网
假装是浏览器(设置 User-Agent,告诉网站“我是 Chrome 浏览器”)。
像人一样操作:比如自动点击按钮、下拉滚动条。
b.破解网站的“防盗门”
代理 IP 池
验证码--OCR 识别(让机器“看图识字”)--花钱雇人(打码平台)--行为验证(滑块、点选)
c.动态加载 (抓取网页,但发现数据是空的,因为内容是通过 JavaScript 动态生成的)
控制浏览器加载页面,等 JS 执行完抓取数据
找到网页和服务器通信的 API 接口,直接请求接口获取数据。
3.爬虫与前端结合:
动态内容爬取(核心:找到返回数据的 API 接口,并模拟请求(携带正确的参数和 Headers))
补充:为什么网页内容需要 JavaScript 异步加载?
传统网页:服务器一次性返回所有 HTML、CSS、JS 和数据,导致首屏加载慢。
异步加载:先返回基础的 HTML 骨架(比如顶部导航栏),再通过 JavaScript 动态请求数据,用户能更快看到部分内容。
类比:外卖平台先显示店铺列表(骨架),等你点击店铺后,再加载菜单(异步数据)。
1.核心:偷数据但别被抓
2.步骤:
a. 模拟“人”的行为上网
假装是浏览器(设置 User-Agent,告诉网站“我是 Chrome 浏览器”)。
像人一样操作:比如自动点击按钮、下拉滚动条。
b.破解网站的“防盗门”
代理 IP 池
验证码--OCR 识别(让机器“看图识字”)--花钱雇人(打码平台)--行为验证(滑块、点选)
c.动态加载 (抓取网页,但发现数据是空的,因为内容是通过 JavaScript 动态生成的)
控制浏览器加载页面,等 JS 执行完抓取数据
找到网页和服务器通信的 API 接口,直接请求接口获取数据。
3.爬虫与前端结合:
动态内容爬取(核心:找到返回数据的 API 接口,并模拟请求(携带正确的参数和 Headers))
补充:为什么网页内容需要 JavaScript 异步加载?
传统网页:服务器一次性返回所有 HTML、CSS、JS 和数据,导致首屏加载慢。
异步加载:先返回基础的 HTML 骨架(比如顶部导航栏),再通过 JavaScript 动态请求数据,用户能更快看到部分内容。
类比:外卖平台先显示店铺列表(骨架),等你点击店铺后,再加载菜单(异步数据)。
全部评论
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享