岗位关键词
岗位职责
1.编写抓取互联网多平台爬虫代码,负责数据采集,参与需求分析和梳理 2.研究各种网站、网页、链接的形态,发现他们的特点和规律 3.参与设计数据抓取的各种策略和算法,提升抓取效果,质量 4.根据业务要求完成基础数据的抽取,清洗,入库等工作
岗位要求
1.本科以上学历,3年以上开发经验,熟悉信息抓取合规机制,合规方法,可以从各类网站进行数据的合规筛选抓取数据 2.熟练掌握python、熟悉scrapy等主流爬虫框架技术 3.精通HTTP协议,熟悉正则表达式,具备web端H5端数据挖掘,了解mysql、elasticsearch等相关技术 4.掌握数据分析流程,实现大规模文本抓取,从事网络爬虫、网页去重、分类、垃圾过滤、质量识别、解析入库等工作
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请 立即举报
中国科学院自动化研究所
研究所
不需要融资
北京
查看其他 1 个职位