爬虫老司机看过来,请教个问题

最近在用Java爬知乎,买的阿布云的***。但是爬虫速度大概在一小时一万条左右,几百万的数据得几百小时啊,感觉有点慢。。请问下各位爬虫速度大概在多少?目前开更多线程速度也没提升,是不是我用的***ip池每秒ip数太少呢,目前不知道怎么优化
全部评论
我在自己的台式机i5配置上爬过微博,一天差不多是1000w个页面,你这个速度太慢了。是不是爬重复了?多线程我开了20个线程。 主要还是要爬取解析入库等各个步骤异步分开。 建议用框架爬取吧,自己写会比较慢。不过自己写技术会更提高~~
点赞 回复 分享
发布于 2017-04-28 10:47

相关推荐

点赞 5 评论
分享
牛客网
牛客企业服务