岗位职责负责多智能体的强化学习和多智能体联合训练- 负责大模型的工业应用与算法落地,包括但不限于智能问答、RAG和Agent等领域;- 在特定领域和场景下,对大模型进行继续训练,涉及微调和强化学习等方法,优化大语言模型在业务场景中的应用效果;- 跟进大模型与强化学习技术的前沿发展,提升算法效率与性能。任职要求- 硕士及以上学历,计算机科学、数学、运筹学、统计学等相关专业;- 熟悉大模型领域的前沿技术,掌握大模型的基本原理及其训练和微调方法;- 深入理解强化学习的知识体系,熟悉主流强化学习算法如PPO、A3C、DQN等;- 熟练使用Python或C++等编程语言,掌握常用数据结构;熟练使用TensorFlow或PyTorch等至少一种深度学习框架;- 有RLHF、多智能体学习、分布式强化学习等实际训练和应用落地经验者优先;- 在顶级会议或期刊上发表过论文,或参加过国际竞赛并取得优异成绩者优先。有意者联系:liuzhilei12@jd.com