强化学习工程师

薪资面议
硕士
西北旺10号度小满金融总部
2025-02-27
 什么是官网闪投?
简历直投官网 无需重复填写简历 投后必反馈 进度实时更新 安全可靠官网可查 海量岗位5w+ 移动端投递方便


岗位职责

1、负责大语言模型强化学习训练方向的研发,提升大模型在金融领域的应用能力,涵盖奖励模型训练、监督微调、强化微调训练等相关技术

2、根据具体业务场景需求,设计和实现微调方案、适配算法及调优工程,并推动其在行业垂直场景中的应用落地



任职要求

1、硕士及以上学历,计算机科学、人工智能、自动化、数学等相关专业

2、扎实的机器学习基础和卓越的编码能力,精通 PyTorch,具备高效解决实际问题的能力

3、熟练掌握大语言模型强化学习相关技术,包含但不限于SFT、PPO、GRPO、DPO、KTO、ToT、MCTS等前沿方法

4、良好的逻辑思维能力和解决问题的能力,具备较强的团队合作精神与沟通技巧,能积极参与项目讨论与决策过程

5、有EMNLP、ACL、ICML、ICLR、NeurIPS等顶级学术会议论文发表或参与过有影响力的开源项目者优先