阿里云-弹性计算-神龙计算-AI训练加速团队

AI训练加速团队主要负责支撑阿里云三大芯片(倚天CPU、PPU、CIPU)和ECS-GPU实例设计和优化方向,构建大规模分布式训练领域应用无感的IaaS+性能竞争力,提供应用无感的性能优化工具和服务。

职位详细描述:

承担着构建阿里云IAAS资源在公共云竞争力的职责。在AI领域,团队对接业界主要AI用户的业务需求,承接提升GPU、AI加速器等芯片在AI场景的竞争力职责。和团队一起通过专家领域知识和软硬件分析能力构建阿里云在AI场景的核心竞争力和加速解决方案。

  1. 负责基于云上AI真实场景的解决方案和性能分析系统建设;
  2. 负责基于云上大规模分布式训练场景的构建和底层软件性能优化工作;
  3. 负责包括CIPU、GPU、AI加速器等硬件在阿里云AI场景的竞争力构建;
  4. 与厂商和内部业务团队合作,为阿里云的AI用户提供具有竞争力的AI解决方案。

PS: 我在AI训练性能加速组,对推理加速、异构计算、通用&HPC、大数据(java)等大组其他方向感兴趣的同学也可投递简历或联系我。

主要职责要求为:

  1. 具有Linux C/C++/Python/CUDA/NCCL等编程经验,对程序架构和数据结构有深入理解。
  2. 熟练掌握主流AI计算框架(PyTorch/TensorFlow)的性能优化技术,熟悉Megatron/Deepspeed等大模型训练框架,有大规模分布式训练优化经验的优先。
  3. 充分理解AI在CV/NLP/推荐系统/大模型等真实业务场景的系统和原理,有相关工作经验者优先。
  4. 熟练掌握和理解计算、网络、存储的性能分析工具和相关原理。
  5. 具有很强的分析问题和快速解决问题的能力,善于学习新技术的优先。

【职位类别】

研发工程师c++、基础平台开发

【实习base和要求】

面向24届暑期实习。工作城市:北京,杭州,上海。实习要求:4天/周,3个月以上,有转正机会

【联系方式&简历投递】邮件标题:实习-姓名-学校-期望实习城市个人简历投递邮箱地址:dushuai.du@alibaba-inc.com

全部评论
社招有吗
点赞 回复 分享
发布于 2023-03-07 16:21 上海
请问师兄,没得日常实习吗
点赞 回复 分享
发布于 2023-04-01 21:41 湖北

相关推荐

#大模型训练##WLB#组内直招,坐标联想研究院ICI lab,薪资满意和WLB都能满足,欢迎大佬投递。简历可发邮箱liaodc5@lenovo.com岗位职责: 1. 负责设计高可用大模型训练容错系统,支持千亿大模型预训练 2. 负责大模型训练容错checkpoint优化,提升大模型checkpoint读写与恢复性能 3. 负责大模型弹性训练框架的研发 岗位要求: 1. 全日制硕士以上学历,计算机科学与技术、人工智能等相关专业; 2. 熟练C++/Python语言、数据结构以及计算机系统结构,有AI模型性能调优经验,以及良好的工程实现能力; 3. 熟悉 AI 领域常见的分布式训练技术,包括但不限于:数据并行、流水线并行和张量并行等,具有相应的项目经验; 4. 至少熟悉一种AI框架(PyTorch/TensorFlow/Paddle/DeepSpeed等),能够熟练使用和调试; 5. 熟悉 GPU 硬件结构和 CUDA 计算原理,有 CUDA 相关算子开发、调试经验,对 NCCL/cuDNN 等有一定了解; 6. 对大规模预训练模型有较好的了解,熟悉常见的预训练模型(如GPT、BERT等)结构、训练方法和优化技巧。 7. 具备出色的问题解决能力和创新思维,能够分析和解决复杂的训练问题,并提出改进和优化的方案; 8. 具有良好的团队合作精神,能够与跨部门的团队紧密合作,共同推动项目的成功。 加分项: 1. 有大模型研发和分布式训练经验 2. 熟悉Kubernetes架构以及大模型训练容错系统 3. 在AI或者HPC领域发表过高水平论文
投递联想研究院等公司10个岗位
点赞 评论 收藏
分享
不愿透露姓名的神秘牛友
11-21 12:10
oppo 算法 29.5K×15(其中3个月年终奖,不一定发满) 硕士985
点赞 评论 收藏
分享
百度oc啦,结束秋招!
坚定的度孝子:看他别的帖子,值得怀疑一下
点赞 评论 收藏
分享
评论
1
2
分享
牛客网
牛客企业服务