大佬们问个问题
1.预训练的损失函数和微调的损失函数计算有什么不同?关注点有什么差异?
2.预训练后的模型获得了什么样的能力?微调后又获得了什么样能力?

昨天面试的时候被问到了😭
全部评论
预训练所有token位置都计算损失、SFT一般只有答案部分计算损失(提问部分label是-100) 预训练是为了吃知识、SFT为了指令遵循
7 回复 分享
发布于 08-20 16:37 广东
预训练和微调的任务不同损失函数肯定会不同吧?预训练不都是自回归而微调可能会根据下游任务设计不同的损失函数
点赞 回复 分享
发布于 08-20 11:18 北京
这个预训练是指的视觉编码器的预训练,还是mllm的第一阶段预训练
点赞 回复 分享
发布于 09-08 11:53 天津

相关推荐

应届生腾讯校招提前实习是不是100%薪资?
宝你的offer真好看:好像实习 6 个月还算工龄
投递腾讯等公司10个岗位 >
点赞 评论 收藏
分享
挣K存W养DOG:他真的很中意你,为什么不回他
点赞 评论 收藏
分享
GGrain:没事,本硕985也不发面试笔试😖
点赞 评论 收藏
分享
8 13 评论
分享
牛客网
牛客企业服务