- 岗位职责
1. 开发实现网络爬虫系统,根据需求,进行信息的抓取和分析工作,实时监控爬虫的进度和警报反馈。
2. 网页信息和APP数据抽取、清洗、等准备工作。
3. 将以上爬取信息用于各项NLP任务。
- 岗位要求
1. 正直诚信,有责任感,有激情,对技术落地创造影响力感到兴奋。
2. 熟悉Python, 熟悉常用开源爬虫框架,如 scrapy / pyspider
,熟悉自动化web测试工具 selenium。
3. 了解基于Cookie的登录原理,熟悉常用的信息抽取技术,如正则表达式、XPath。
4. 熟悉常见的反爬虫技术,有一定的对抗能力, 了解分布式爬虫架构。
5. 已经有至少3个月的爬虫实战经验。
6. 学习能力强,能独立分析并解决问题。
7. 能保证至少3个月的实习时间,每周全职至少四天。
8. 必须是在校生身份。
9. 如果有兴趣能做点NLP算法就更好了。