因为transformer输入的序列长度不固定,bn是算每一个特征的均值和方差,序列长度不一样,计算的时候有的地方有值有的地方没有,不好计算。ln是对每一个样本单独计算,即使每个样本长度不一样也不影响计算
16 4

相关推荐

KPLACE:首先是板面看起来不够,有很多奖,比我厉害。项目要精减,大概详细描述两到三个,要把技术栈写清楚,分点,什么算法,什么外设,怎么优化,不要写一大堆,分点,你写上去的目的,一是让别人知道你做了这个知识点,然后在面试官技术面的时侯,他知道你会这个,那么就会跟你深挖这个,然后就是个人评价改为专业技能
点赞 评论 收藏
分享
01-07 15:50
四川大学 Java
看日出看日落:好好背八股,做算法。我身边跟你bg差不多的基本都大厂暑期
点赞 评论 收藏
分享
牛客网
牛客企业服务