面试官:目前有哪些post-training方法
面试官:目前有哪些post-training方法
今天老师给大家详细分析一道大厂算法面试真题:目前有哪些post-training方法,供各位同学参考。
✅回答:当前主流的后训练方法包括监督微调、基于人类反馈的强化学习(RLHF)、直接偏好优化(DPO)、专家迭代(EI)以及它们的变体(例如:RLAIF、PPO、ORPO、)。然而,后训练方法在LLM部署之前增加了一个相当复杂的过程。
✍🏻详解:
1️⃣基于人类反馈的强化学习(RLHF): 基于人类反馈的强化学习是一种将人类偏好和意见引入强化学习过程中的方法。RLHF将人类的反馈作为奖励信号来指导模型学习。人类可以通过提供对模型行为的偏好、反馈或排序,帮助模型更好地调整策略来适应人类的偏好,就是更懂你。
2️⃣直接偏好优化(DPO): 直接偏好优化是一种优化技术,主要通过直接学习模型在不同情境下对不同偏好的评估,来提高模型的性能。注意,它是直接优化偏好,在本质上其是通过排序的思想构造了一个优化函数,然后推导为最后可直接优化的损失,比起来RLHF的思想它更简单,大体就是改个损失就可以了。
3️⃣专家迭代(EI): 专家迭代是一种通过模仿专家行为并不断迭代改进模型的方法。在专家迭代过程中,模型首先通过观察专家的行为来学习。然后,通过模拟和优化这些行为,模型根据专家的反馈或策略进行改进。这个我没有用到过,只能说个大概。
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
今天老师给大家详细分析一道大厂算法面试真题:目前有哪些post-training方法,供各位同学参考。
✅回答:当前主流的后训练方法包括监督微调、基于人类反馈的强化学习(RLHF)、直接偏好优化(DPO)、专家迭代(EI)以及它们的变体(例如:RLAIF、PPO、ORPO、)。然而,后训练方法在LLM部署之前增加了一个相当复杂的过程。
✍🏻详解:
1️⃣基于人类反馈的强化学习(RLHF): 基于人类反馈的强化学习是一种将人类偏好和意见引入强化学习过程中的方法。RLHF将人类的反馈作为奖励信号来指导模型学习。人类可以通过提供对模型行为的偏好、反馈或排序,帮助模型更好地调整策略来适应人类的偏好,就是更懂你。
2️⃣直接偏好优化(DPO): 直接偏好优化是一种优化技术,主要通过直接学习模型在不同情境下对不同偏好的评估,来提高模型的性能。注意,它是直接优化偏好,在本质上其是通过排序的思想构造了一个优化函数,然后推导为最后可直接优化的损失,比起来RLHF的思想它更简单,大体就是改个损失就可以了。
3️⃣专家迭代(EI): 专家迭代是一种通过模仿专家行为并不断迭代改进模型的方法。在专家迭代过程中,模型首先通过观察专家的行为来学习。然后,通过模拟和优化这些行为,模型根据专家的反馈或策略进行改进。这个我没有用到过,只能说个大概。
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享