- 岗位职责
1、负责数据收集,根据特定的要求标签、事件等,整理创建用于爬数据的工具,并管理大规模数据;
2、创建用于数据可视化,标记和清洁的文档和工具;
3、与标签团队合作进行数据标注修正;
4、负责进行模型测试和评估,将模型部署到平台以测试收益, 通过专项分析,输出专项分析报告,为业务模块的决策和产品方向提供数据支持;
5、为公开开放数据集基准测试创建工具;
6、参与数据底层的工具、平台、部署流程等技术体系建设的研发工作。
- 岗位要求
1、计算机、电子、自动化等相关专业硕士及以上学历;
2、熟悉Python、Linux OS;
3、有HDFS/Spark等数据平台开发和使用经验;
4、有一定的 SQL 经验;
5、良好的英语沟通/写作能力;
6、有比较好的主观能动性, 善于沟通,工作积极主动,责任心强,具备良好的团队协作能力。
具有以下条件者优先:
1、熟悉多项大数据领域的开源框架,如Hadoop, Hive, Presto, Storm, Spark, Kafka, HBase, Redis, RocksDB, ElasticSearch, Druid等;
2、优秀的编码和 trouble shooting 能力;
3、具有分布式大规模深度学习数据管理的经验。