分布式训练架构师

薪资面议
硕士
上海市闵行区陈行公路2388号浦江科技广场16号楼M层
2023-08-29
 什么是官网闪投?
简历直投官网 无需重复填写简历 投后必反馈 进度实时更新 安全可靠官网可查 海量岗位5w+ 移动端投递方便

人才画像:

1. 构建大规模的分布式机器学习系统的经验;

2. 严谨务实、客观审慎的工作态度;

3. 在AI大厂、互联网头部企业从事过模型训练相关的工作。


岗位职责

1.基于壁仞生态,针对NLP/CV/音视频/多模态/推广搜等场景,构建大规模的分布式机器学习系统;

2.负责解决业务交付流程中遇到的单机多卡,多机多卡的精度、性能问题;

3.基于壁仞生态,研究行业领先的超大规模分布式策略,解决在大模型落地当中遇到的分布式工程挑战。


任职资格

1.计算机、电子、数学及相关专业,5年以上相关工作经验; 

2.熟练C++/Python编程,有cuda编程经验优先; 

3.熟悉Tensorflow/pytorch/paddle以及其他国产机器学习框架,

有相关框架开发经验者优先; 

4.熟悉CUDA生态,有NCCL、RDMA开发经验者优先;

5.了解常见的大规模分布式训练优化策略,熟悉fsdp/deepspeed/accelerate/galvatron者优先。