预训练所有token位置都计算损失、SFT一般只有答案部分计算损失(提问部分label是-100) 预训练是为了吃知识、SFT为了指令遵循
7 4

相关推荐

点赞 评论 收藏
分享
牛客网
牛客企业服务