强化学习工程师

薪资面议
硕士
西北旺10号度小满金融总部
2025-02-27










岗位职责
1、负责大语言模型强化学习训练方向的研发,提升大模型在金融领域的应用能力,涵盖奖励模型训练、监督微调、强化微调训练等相关技术
2、根据具体业务场景需求,设计和实现微调方案、适配算法及调优工程,并推动其在行业垂直场景中的应用落地
任职要求
1、硕士及以上学历,计算机科学、人工智能、自动化、数学等相关专业
2、扎实的机器学习基础和卓越的编码能力,精通 PyTorch,具备高效解决实际问题的能力
3、熟练掌握大语言模型强化学习相关技术,包含但不限于SFT、PPO、GRPO、DPO、KTO、ToT、MCTS等前沿方法
4、良好的逻辑思维能力和解决问题的能力,具备较强的团队合作精神与沟通技巧,能积极参与项目讨论与决策过程
5、有EMNLP、ACL、ICML、ICLR、NeurIPS等顶级学术会议论文发表或参与过有影响力的开源项目者优先