分布式训练工程师

薪资面议
硕士
上海市闵行区陈行公路2388号浦江科技广场16号楼M层
2024-12-10










角色和期望:
1.基于公司生态,针对NLP/CV/音视频/多模态/推广搜等场景, 构建大规模的分布式机器学习系统;
2.负责解决业务交付流程中遇到的单机多卡,多机多卡的精度、性能问题;
3.基于公司生态,研究行业领先的超大规模分布式策略,解决在大模型落地当中遇到的分布式工程挑战。
人才画像:
1.计算机、电子、数学及相关专业,2年以上相关工作经验;
2.熟练C++/Python编程,有cuda编程经验优先;
3.熟悉Tensorflow/pytorch/paddle以及其他国产机器学习框架, 有相关框架开发经验者优先;
4.熟悉CUDA生态, 有NCCL、RDMA开发经验者优先;
5.了解常见的大规模分布式训练优化策略,熟悉megatron/deepspeed/accelerate/galvatron者优先;