个人理解,LoRA微调里面,AB反过来初始化可以,但不可以全0,A的梯度更新过程依赖于B,B的梯度更新依赖于A,因此初始化是需要AB其中之一非0,而AB其中之一为0可以保证在微调的初始阶段,原模型从大的文本语料库中学到的信息被保留下来,所以AB其中之一需要为0
1 1

相关推荐

一名愚蠢的人类:多少games小鬼留下了羡慕的泪水
投递荣耀等公司10个岗位
点赞 评论 收藏
分享
10-05 23:02
东北大学 Java
我说句实话啊:那时候看三个月培训班视频,随便做个项目背点八股,都能说3 40w是侮辱价
点赞 评论 收藏
分享
牛客网
牛客企业服务