- 岗位职责
支持秋招转正,可远程实习
支持秋招转正,可远程实习
支持秋招转正,可远程实习
招聘所在组是研究院-工具链-模型训练组,我是组里高级系统研究员(对标阿里P7),招聘的实习生由我亲自带。我是北邮本硕毕业,有多年分布式系统开发经验,有自己的技术博客和微信公众号。
我们组专注在模型训练过程中系统相关的系统设计和优化,包括但不限于数据、集群调度和大模型训练加速这三块。更多介绍,可以见这个知乎专栏: 踢翻炼丹炉,最近我们做的调度系统也会有系列文章介绍。
对实习生的要求:
计算机基础知识比如操作系统、体系结构知识扎实,有较强的编码能力
能长期实习,至少4个月起
有很强的好奇心和自学能力
工作职责(几个方向可选):
贵组的优势:
成员都很年轻,非常容易融入。工作之外的篮球、游泳、快乐餐活动丰富
可以做的方向多,氛围自由,尊重每个人的选择
我自己亲自带,会把任务做好合理划分,随着实习生的成长逐步会承担更多核心任务
工作职责:
解决研究员遇到的各类问题,提高训练鲁棒性
提高集群资源利用率,比如是否可以使用空闲算力进行大模型训练?
对当前十几亿参数的超大模型进行训练加速
除了上述系统领域,机器学习中还有很多系统相关的领域,具体可见这篇系统领域的综述文章
我会把工作内容切分成适合你的任务,通过做完一个个任务你的能力会得到稳步提升,同时任务的难度也会逐渐加大。
涉及但不限于:
* 学习并实践 Nvidia CUDA 等技术
* 掌握 Nsight GPU profile 工具
* 理解业务场景,研读近期业内相关论文
* 学习、借鉴相关开源项目如 DeepSpeed,FairScale 等
- 岗位要求
1. 满足时间要求:年后过来实习,能实习5个月,除特殊情况外保证每周至少4天
2. 简历及面试时能举例说明自己有动手写代码、调试的能力
3. 简历及面试时能举例说明有较强的英文阅读及新技术的自学能力
4. 有扎实的操作系统知识,熟练掌握至少一门 Python、C、C++