论文笔记 Synthesizer

论文题目:Synthesizer: Rethinking Self-Attention in Transformer Models

动机:
Transformer模型的成功很大程度上归因于self-attention机制,由于它使用key-query的点积来表示token之间的相关性。但是self-attention中的点乘真的有那么重要吗?可不可以采取其它方式来代替它?作者针对这个疑问实现了若干种Synthesizer Attention来验证其重要性。

全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客企业服务