强化学习工程师

薪资面议

硕士

西北旺10号度小满金融总部

2025-02-27

什么是官网闪投?

简历直投官网

无需重复填写简历

投后必反馈

进度实时更新

安全可靠官网可查

海量岗位5w+

移动端投递方便

岗位职责

1、负责大语言模型强化学习训练方向的研发，提升大模型在金融领域的应用能力，涵盖奖励模型训练、监督微调、强化微调训练等相关技术

2、根据具体业务场景需求，设计和实现微调方案、适配算法及调优工程，并推动其在行业垂直场景中的应用落地

任职要求

1、硕士及以上学历，计算机科学、人工智能、自动化、数学等相关专业

2、扎实的机器学习基础和卓越的编码能力，精通 PyTorch，具备高效解决实际问题的能力

3、熟练掌握大语言模型强化学习相关技术，包含但不限于SFT、PPO、GRPO、DPO、KTO、ToT、MCTS等前沿方法

4、良好的逻辑思维能力和解决问题的能力，具备较强的团队合作精神与沟通技巧，能积极参与项目讨论与决策过程

5、有EMNLP、ACL、ICML、ICLR、NeurIPS等顶级学术会议论文发表或参与过有影响力的开源项目者优先

度小满

金融

A轮

北京