Non Autoregressive Sequence Generation
为什么要NAT:AT的解码速度太长了,NAT可以并行解码
会带来的问题:multi-modality问题,就是概率分布的对应比较混乱
想法1:
问题:输出模糊,数据集的平均,multi modality
原因:没有dependency
解决:autoregressive:pixel rnn; gan:output完整structure的方法
Vanilla NAT:
- encoder output decoder对应几个字,数字总和决定输出长度
- Fertility:(latent variable)
知识蒸馏
Noisy Parallel Decoding
sample不同的Fertility
decoder输出不同结果
交给autoregressive打分数
Evolution of NAT
- Vanilla NAT
- Iterative Refinement
- Insertion-based
- Insert-delete
- CTC-based
Mask-Predict
Insertion Transformer
输出拼接预测要插入的字
优先insert靠中间的字
KERMIT
只用encoder,同时train 5个test
Levenshtein Transformer
训练方法:imitation learning
Levenshtein distance algorithm
Imputer
block decoding
每个block每步都要变一个
CTC text generation
NAT distill
算法小屋 文章被收录于专栏
不定期分享各类算法以及面经。同时也正在学习相关分布式技术。欢迎一起交流。