说一个很novel的观点…… bn一般用在图像上,当我们对图片抽取特征后,会得到不同通道的特征,这些通道特征对batch内样本具有同样的含义。例如一个人有年龄,身高等特征。而nlp中,如果要进行bn,则是对不同句子的第i个token进行处理,举个例子"我爱你"和"牛客网",其中的我和牛并没有相同的含义,所以解释不通。还有一个点就是你所说的每个句子长度不同,对于短句子我们需要pad,那么如果进行bn就需要将pad.和长句子中的token进行处理,这样也是不合理的。
牛客网
牛客企业服务