大模型训练招人了

#大模型训练##WLB#
组内直招,坐标联想研究院ICI lab,薪资满意和WLB都能满足,欢迎大佬投递。简历可发邮箱liaodc5@lenovo.com
岗位职责:

1. 负责设计高可用大模型训练容错系统,支持千亿大模型预训练

2. 负责大模型训练容错checkpoint优化,提升大模型checkpoint读写与恢复性能

3. 负责大模型弹性训练框架的研发

岗位要求:

1. 全日制硕士以上学历,计算机科学与技术、人工智能等相关专业;

2. 熟练C++/Python语言、数据结构以及计算机系统结构,有AI模型性能调优经验,以及良好的工程实现能力;

3. 熟悉 AI 领域常见的分布式训练技术,包括但不限于:数据并行、流水线并行和张量并行等,具有相应的项目经验;

4. 至少熟悉一种AI框架(PyTorch/TensorFlow/Paddle/DeepSpeed等),能够熟练使用和调试;

5. 熟悉 GPU 硬件结构和 CUDA 计算原理,有 CUDA 相关算子开发、调试经验,对 NCCL/cuDNN 等有一定了解;

6. 对大规模预训练模型有较好的了解,熟悉常见的预训练模型(如GPT、BERT等)结构、训练方法和优化技巧。

7. 具备出色的问题解决能力和创新思维,能够分析和解决复杂的训练问题,并提出改进和优化的方案;

8. 具有良好的团队合作精神,能够与跨部门的团队紧密合作,共同推动项目的成功。

加分项:

1. 有大模型研发和分布式训练经验

2. 熟悉Kubernetes架构以及大模型训练容错系统

3. 在AI或者HPC领域发表过高水平论文
全部评论
这个是社招岗位,大佬们请注意
点赞 回复 分享
发布于 11-10 22:03 北京

相关推荐

头像
11-15 16:40
长沙理工大学
点赞 评论 收藏
分享
点赞 2 评论
分享
牛客网
牛客企业服务