大佬们问个问题
1.预训练的损失函数和微调的损失函数计算有什么不同?关注点有什么差异?
2.预训练后的模型获得了什么样的能力?微调后又获得了什么样能力?
昨天面试的时候被问到了😭
1.预训练的损失函数和微调的损失函数计算有什么不同?关注点有什么差异?
2.预训练后的模型获得了什么样的能力?微调后又获得了什么样能力?
昨天面试的时候被问到了😭
全部评论
预训练所有token位置都计算损失、SFT一般只有答案部分计算损失(提问部分label是-100)
预训练是为了吃知识、SFT为了指令遵循
预训练和微调的任务不同损失函数肯定会不同吧?预训练不都是自回归而微调可能会根据下游任务设计不同的损失函数
这个预训练是指的视觉编码器的预训练,还是mllm的第一阶段预训练
相关推荐
昨天 23:31
The University of Sydney C++ 点赞 评论 收藏
分享