职位描述:负责后训练(Post-training)相关研发工作,提升模型在数理推理、Planning、RAG、指令跟随、工具调用等方面的能力;优化和迭代大模型的对齐训练策略和工具,包括 SFT、RLHF、Self-play RL、Agent 优化、模型融合、模型蒸馏等;开展人类和机器偏好相关研究,提升奖励信号的质量和多样性,解决 Reward Hacking 和奖励融合问题;参与数据飞轮、合成管道、训练实验、评测工具的开发与升级,提升团队效率,跟进并适配领域和开源的最新进展;职位要求计算机或数理相关专业背景,硕士或博士学历优先;具备优秀的编程能力,精通 Linux、Python 和 Pytorch;熟悉 Transformer 架构和大模型基础知识,有后训练及数据处理经验者优先;具备强大的研究和实践能力,能够制定高效实验方案,快速定位和解决问题;具有良好的沟通和协作能力,具备挑战精神和结果导向。加分项:在顶级会议上发表过论文并具有学术影响力。拥有知名开源项目经验,在开源社区有影响力。深度参与过知名大模型项目,并在关键技术上有深入实践经验。有医学背景/医疗大模型/医疗落地实践等经验百川智能社招内推码: UHA2UC9投递链接: https://cq6qe6bvfr6.jobs.feishu.cn/s/iAE3p1em#人工智能招聘#