Non Autoregressive Sequence Generation

为什么要NAT:AT的解码速度太长了,NAT可以并行解码
会带来的问题:multi-modality问题,就是概率分布的对应比较混乱
图片说明
想法1:
图片说明
问题:输出模糊,数据集的平均,multi modality
原因:没有dependency
解决:autoregressive:pixel rnn; gan:output完整structure的方法
图片说明

Vanilla NAT:

  1. encoder output decoder对应几个字,数字总和决定输出长度
  2. Fertility:(latent variable)
    图片说明

知识蒸馏

图片说明

Noisy Parallel Decoding

sample不同的Fertility
decoder输出不同结果
交给autoregressive打分数

Evolution of NAT

  1. Vanilla NAT
  2. Iterative Refinement
  3. Insertion-based
  4. Insert-delete
  5. CTC-based

Mask-Predict

图片说明

Insertion Transformer

输出拼接预测要插入的字
图片说明

图片说明
优先insert靠中间的字

KERMIT

只用encoder,同时train 5个test

Levenshtein Transformer

图片说明
训练方法:imitation learning
Levenshtein distance algorithm
图片说明
图片说明

Imputer

图片说明

block decoding

每个block每步都要变一个

CTC text generation

图片说明

NAT distill

算法小屋 文章被收录于专栏

不定期分享各类算法以及面经。同时也正在学习相关分布式技术。欢迎一起交流。

全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务