序列中每一个token的embedding在经过很多层self attention之后会变得相似的问题以及对应的原因? 这个问题得怎么解释呢?之前好像没看到对应的说法。
点赞 3

相关推荐

牛客网
牛客企业服务