- 岗位职责
1)负责公司数据源抓取需求,满足公司对多源数据采集要求;
2)负责爬虫核心算法的策略优化研究,提升爬虫抓取效率和质量(如调权调度、质量判断、封禁与反封禁研究等);;
3)规划和建设网络信息抓取平台,确定技术框架和执行方案;
4)参与底层大数据有关的平台、工具建设。
- 岗位要求
1)本科及以上学历,计算机专业优先,爬虫经验2年以上;
2)3年以上java或python开发经验,精通java或python编程语言,熟练掌握数据库技术以及NoSQL存储技术;
3)有大型分布式抓取系统的开发、架构经验的优先;
4)熟悉linux开发环境;
5)对前端css、js有深入了解,掌握js逆向;
6)有扎实的数据结构和算法功底;
7)深刻理解scrapy等抓取框架的机制和实现,了解常见的爬取、反爬手段和解决策略;
8)有端上抓取经验优先,熟悉app破壳、反编译尤佳。