y=x+(dy/dx)△x;多头注意力里XQ,XK,XV参数是要学的,比如8个头那就学8个不同的线性变换矩阵最后再拼一块,多个矩阵肯定蕴含不同的特征,好比CNN映射的多通道feature map最后拼在一起
点赞 5

相关推荐

牛客网
牛客企业服务