论文笔记 Synthesizer
论文题目:Synthesizer: Rethinking Self-Attention in Transformer Models
动机:
Transformer模型的成功很大程度上归因于self-attention机制,由于它使用key-query的点积来表示token之间的相关性。但是self-attention中的点乘真的有那么重要吗?可不可以采取其它方式来代替它?作者针对这个疑问实现了若干种Synthesizer Attention来验证其重要性。
论文题目:Synthesizer: Rethinking Self-Attention in Transformer Models
动机:
Transformer模型的成功很大程度上归因于self-attention机制,由于它使用key-query的点积来表示token之间的相关性。但是self-attention中的点乘真的有那么重要吗?可不可以采取其它方式来代替它?作者针对这个疑问实现了若干种Synthesizer Attention来验证其重要性。
相关推荐