AI训练加速团队主要负责支撑阿里云三大芯片(倚天CPU、PPU、CIPU)和ECS-GPU实例设计和优化方向,构建大规模分布式训练领域应用无感的IaaS+性能竞争力,提供应用无感的性能优化工具和服务。职位详细描述:承担着构建阿里云IAAS资源在公共云竞争力的职责。在AI领域,团队对接业界主要AI用户的业务需求,承接提升GPU、AI加速器等芯片在AI场景的竞争力职责。和团队一起通过专家领域知识和软硬件分析能力构建阿里云在AI场景的核心竞争力和加速解决方案。1. 负责基于云上AI真实场景的解决方案和性能分析系统建设;2. 负责基于云上大规模分布式训练场景的构建和底层软件性能优化工作;3. 负责包括CIPU、GPU、AI加速器等硬件在阿里云AI场景的竞争力构建;4. 与厂商和内部业务团队合作,为阿里云的AI用户提供具有竞争力的AI解决方案。PS: 我在AI训练性能加速组,对推理加速、异构计算、通用&HPC、大数据(java)等大组其他方向感兴趣的同学也可投递简历或联系我。主要职责要求为:1. 具有Linux C/C++/Python/CUDA/NCCL等编程经验,对程序架构和数据结构有深入理解。2. 熟练掌握主流AI计算框架(PyTorch/TensorFlow)的性能优化技术,熟悉Megatron/Deepspeed等大模型训练框架,有大规模分布式训练优化经验的优先。3. 充分理解AI在CV/NLP/推荐系统/大模型等真实业务场景的系统和原理,有相关工作经验者优先。4. 熟练掌握和理解计算、网络、存储的性能分析工具和相关原理。5. 具有很强的分析问题和快速解决问题的能力,善于学习新技术的优先。【职位类别】研发工程师c++、基础平台开发【实习base和要求】面向24届暑期实习。工作城市:北京,杭州,上海。实习要求:4天/周,3个月以上,有转正机会【联系方式&简历投递】邮件标题:实习-姓名-学校-期望实习城市个人简历投递邮箱地址:dushuai.du@alibaba-inc.com