alps山

2018-05-14 21:48 东南大学产品经理

关注

如何处理反爬？

自己做了个爬虫，每次面试都会被问到反爬的问题，但是我用的webmagic爬取的过程中没有遇到过反爬这个问题（可能爬的比较少），想问问大家怎么处理反爬的情况（爬取大量数据），除了***ip，这个貌似不稳。

全部评论

推荐最新楼层

江山如画君

吉林大学 golang

1. 明确网站是对单位时间访问量还是一段时间内访问总量做限制 2. ip***池，轮询 3. 修改http头模拟浏览器访问 4. 从小到大逐步提高线程数目去探测网站的临界值

点赞回复分享

发布于 2018-05-14 23:29

给个offer养家糊口

红棉小冰_平台工程部门_Java开发

这个。。百度一搜一大把的吧。。

点赞回复分享

发布于 2018-05-14 22:03

阿喵喵萌萌哒

南京大学数据分析师

常见的就是换useragent+ip，ip验证有效过后再用，不稳定的情况具体看下，一般抓取失败的网页保存下来再次请求就好。一般建议降低请求次数，如果几天能够抓完应该也在可接受范围之内。

点赞回复分享

发布于 2018-05-14 22:42

lvty

上海电子信息职业技术学院 Java

速度不要太快啊多线程模拟随机时间一定不要太快了拉别人数据还要速度就真的。。

点赞回复分享

发布于 2018-05-14 23:16

二手牛仔裤

哔哩哔哩_Java高级研发工程师

好像有个叫布隆过滤器的结构专门处理反爬虫

点赞回复分享

发布于 2018-05-16 02:08

朱磊201805161402107

青岛科技大学 Java

***IP

点赞回复分享

发布于 2018-05-16 16:50

朱磊201805161402107

青岛科技大学 Java

分布式爬取，设置间隔时间

点赞回复分享

发布于 2018-05-16 16:51

11-24 12:23

快手_电商_支付技术(实习员工)

分享一下我的日常实习经历

bg中下流211本，26后端选手欢迎大佬们与我多多交流，互相学习~美团 - 火车票供应链组一面（7.3），第一次面大厂，很激动紧张，答出来80%，还是挂了字节 - 火山引擎一面（8.1），都答上来了，反馈说26届不适合业务对接，估计没hc了，但是hr说面评很好小米 - 一面（8.1），面试官评价很好阿里 - 高德地图（8.2），被狠狠拷打了，疯狂问，一直问到不会为止，还是自己太菜了小米 - 二面（8.2）oc快手 - 商业化一面（8.8）快手 - 商业化二面（8.9）oc字节 - Data（8.12），计网操作系统场景题，一道mid，一道hard，mid手撕出来了，对于hard（课程表，方法是...

点赞评论收藏

11-20 10:40

重庆理工大学汽车电子工程师

在宝马实习的体验

首先，办公室的环境宽敞，每个人都有自己的独立工位，配备了显示屏，升降桌.组里的同事们都特别温柔，工作压力几乎没有。平时还会有糖果和小零食，气氛轻松。餐饮方面，一楼的员工餐厅除了轻食沙拉，还有各种面包和咖啡。还有就是楼下常常会有车展和读书交换活动，我经常去。总的来说，在宝马挺轻松愉快的

宝马公司氛围 14人发布

点赞评论收藏

11-19 13:05

河北大学电力电子工程师

cvte实习体验

先说说吃的吧，饭堂早上有酸奶，中午和晚上各种饮料随便喝，每餐都有好几种水果，分量很足，每次我都吃的很饱。还有免费的咖啡，茶水间的小零食也不少。住的地方也还行，实习生住在公司旁边的宿舍，两人间，环境挺不错的。我每天中午吃完饭都会回去午休一下，正式员工们是带着折叠床在办公室午休。交通方面，公司提供班车，从宿舍到公司，最晚一班是21:30，挺方便的。还有健身房、游泳池、舞蹈室。总体来说，公司氛围挺好的，加班也没有我想象中那么严重，个人觉得可以接受。

CVTE公司福利 265人发布

点赞评论收藏

点赞收藏评论

全站热榜

正在热议

# 选完offer后，你后悔学本专业吗 #