如果往深里说,可以结合上Lipschitz常量,self-attention的Lipschitz常量比较大,也就是上下界浮动大,BN层无法有效约束。这个点比较深,还可以延伸到LN的变体RMSNorm。 虽然从理论上可以讲的很深,但其实主要还是实验上有效,这些八股属实没意思。
3 3

相关推荐

牛客网
牛客企业服务