字节电商治理一面(大模型)

团队好像主要做内容治理,vlm,llm都有
主要在问项目了,code是个medium,持续记录!

- 如果训练了多个评测类型的reward model,比如针对3H评测的3个模型,在RLHF阶段怎么用它们?是直接加权还是分阶段用?
- (针对简历项目提问)你在项目里是怎么做RLHF的?用DPO或PPO时,有没有遇到过训练不收敛或者效果不好的情况?可能是什么原因?网上常见的解决办法有哪些?
- 偏好数据是怎么构造的?比如用户点击数据或者人工标注的偏好对,你是怎么处理的?
- 全参微调和LoRA各有什么缺点?在实际项目中,你是怎么决定用哪种方法的?
- 位置编码在Transformer里很重要,能介绍一下常见的位置编码方法吗?比如绝对位置编码、相对位置编码这些,它们各自有什么特点?
#牛客AI配图神器#
全部评论

相关推荐

评论
1
收藏
分享

创作者周榜

更多
牛客网
牛客企业服务