如何处理反爬?

自己做了个爬虫,每次面试都会被问到反爬的问题,但是我用的webmagic爬取的过程中没有遇到过反爬这个问题(可能爬的比较少),想问问大家怎么处理反爬的情况(爬取大量数据),除了***ip,这个貌似不稳。
全部评论
1.  明确网站是对单位时间访问量还是一段时间内访问总量做限制 2.  ip***池,轮询 3.  修改http头模拟浏览器访问 4.  从小到大逐步提高线程数目去探测网站的临界值
点赞 回复 分享
发布于 2018-05-14 23:29
这个。。百度一搜一大把的吧。。
点赞 回复 分享
发布于 2018-05-14 22:03
常见的就是 换useragent+ip,ip验证有效过后再用,不稳定的情况具体看下,一般抓取失败的网页保存下来再次请求就好。一般建议降低请求次数,如果几天能够抓完应该也在可接受范围之内。
点赞 回复 分享
发布于 2018-05-14 22:42
速度不要太快啊 多线程模拟随机时间 一定不要太快了 拉别人数据还要速度 就真的。。
点赞 回复 分享
发布于 2018-05-14 23:16
好像有个叫布隆过滤器的结构专门处理反爬虫
点赞 回复 分享
发布于 2018-05-16 02:08
***IP 
点赞 回复 分享
发布于 2018-05-16 16:50
分布式爬取,设置间隔时间
点赞 回复 分享
发布于 2018-05-16 16:51

相关推荐

点赞 收藏 评论
分享
牛客网
牛客企业服务