你好,Transformer的并行性这里是不是有点问题呢? Transformer的一个核心特性:输入序列中每个位置的单词都有自己独特的路径流经编码器。在自注意力层中,这些路径之间存在依赖关系。而前馈层没有这些依赖关系。因此在前馈层时可以并行执行各种路径。
点赞 2

相关推荐

点赞 评论 收藏
分享
牛客868257804号:九个中铁八个中建
点赞 评论 收藏
分享
牛客网
牛客企业服务