分布式训练工程师

薪资面议
硕士
上海市闵行区陈行公路2388号浦江科技广场16号楼M层
2024-12-10
 什么是官网闪投?
简历直投官网 无需重复填写简历 投后必反馈 进度实时更新 安全可靠官网可查 海量岗位5w+ 移动端投递方便

角色和期望:


1.基于公司生态,针对NLP/CV/音视频/多模态/推广搜等场景, 构建大规模的分布式机器学习系统;

2.负责解决业务交付流程中遇到的单机多卡,多机多卡的精度、性能问题;

3.基于公司生态,研究行业领先的超大规模分布式策略,解决在大模型落地当中遇到的分布式工程挑战。


人才画像:


1.计算机、电子、数学及相关专业,2年以上相关工作经验;

2.熟练C++/Python编程,有cuda编程经验优先;

3.熟悉Tensorflow/pytorch/paddle以及其他国产机器学习框架, 有相关框架开发经验者优先;

4.熟悉CUDA生态, 有NCCL、RDMA开发经验者优先;

5.了解常见的大规模分布式训练优化策略,熟悉megatron/deepspeed/accelerate/galvatron者优先;