分布式训练架构师
![](https://static.nowcoder.com/fe/file/oss/1709880776281IFJLB.png)
薪资面议
硕士
上海市闵行区陈行公路2388号浦江科技广场16号楼M层
2023-08-29
![](https://static.nowcoder.com/fe/file/oss/1731469229147EAJTS.png)
![](https://static.nowcoder.com/fe/file/oss/1709868040452PSELW.png)
![](https://uploadfiles.nowcoder.com/files/20240308/575528905_1709868010529/icon.png)
![](https://uploadfiles.nowcoder.com/files/20240308/575528905_1709868049257/icon2.png)
![](https://uploadfiles.nowcoder.com/files/20240308/575528905_1709868068187/icon3.png)
![](https://uploadfiles.nowcoder.com/files/20240308/575528905_1709868096955/icon4.png)
![](https://uploadfiles.nowcoder.com/files/20240308/575528905_1709868113320/icon5.png)
![](https://uploadfiles.nowcoder.com/files/20240308/575528905_1709868125128/icon6.png)
![](https://uploadfiles.nowcoder.com/files/20240308/575528905_1709868135488/icon7.png)
![](https://static.nowcoder.com/fe/file/oss/1709091175753BUQKA.png)
人才画像:
1. 构建大规模的分布式机器学习系统的经验;
2. 严谨务实、客观审慎的工作态度;
3. 在AI大厂、互联网头部企业从事过模型训练相关的工作。
岗位职责
1.基于壁仞生态,针对NLP/CV/音视频/多模态/推广搜等场景,构建大规模的分布式机器学习系统;
2.负责解决业务交付流程中遇到的单机多卡,多机多卡的精度、性能问题;
3.基于壁仞生态,研究行业领先的超大规模分布式策略,解决在大模型落地当中遇到的分布式工程挑战。
任职资格
1.计算机、电子、数学及相关专业,5年以上相关工作经验;
2.熟练C++/Python编程,有cuda编程经验优先;
3.熟悉Tensorflow/pytorch/paddle以及其他国产机器学习框架,
有相关框架开发经验者优先;
4.熟悉CUDA生态,有NCCL、RDMA开发经验者优先;
5.了解常见的大规模分布式训练优化策略,熟悉fsdp/deepspeed/accelerate/galvatron者优先。