Reward model 如何训练?Reward model 你觉得训练到什么程度可以?Reward model不准确怎么办?Rewar model和训练的LLM模型用同一个基座模型可能有什么作用?这几个问题 佬怎么回答的啊
点赞 评论

相关推荐

11-15 09:55
已编辑
上海交通大学 算法工程师
美团 核心本地商业 广告生成 n*15
点赞 评论 收藏
分享
牛客网
牛客企业服务