多头会多一个输出的线性层,单头复杂度是n^2*d,多头是n^2*d+n*d^2
3 6

相关推荐

牛客网
牛客企业服务