Non Autoregressive Sequence Generation

为什么要NAT:AT的解码速度太长了,NAT可以并行解码
会带来的问题:multi-modality问题,就是概率分布的对应比较混乱
图片说明
想法1:
图片说明
问题:输出模糊,数据集的平均,multi modality
原因:没有dependency
解决:autoregressive:pixel rnn; gan:output完整structure的方法
图片说明

Vanilla NAT:

  1. encoder output decoder对应几个字,数字总和决定输出长度
  2. Fertility:(latent variable)
    图片说明

知识蒸馏

图片说明

Noisy Parallel Decoding

sample不同的Fertility
decoder输出不同结果
交给autoregressive打分数

Evolution of NAT

  1. Vanilla NAT
  2. Iterative Refinement
  3. Insertion-based
  4. Insert-delete
  5. CTC-based

Mask-Predict

图片说明

Insertion Transformer

输出拼接预测要插入的字
图片说明

图片说明
优先insert靠中间的字

KERMIT

只用encoder,同时train 5个test

Levenshtein Transformer

图片说明
训练方法:imitation learning
Levenshtein distance algorithm
图片说明
图片说明

Imputer

图片说明

block decoding

每个block每步都要变一个

CTC text generation

图片说明

NAT distill

算法小屋 文章被收录于专栏

不定期分享各类算法以及面经。同时也正在学习相关分布式技术。欢迎一起交流。

全部评论

相关推荐

07-11 15:12
门头沟学院 Java
别人在上班,我就在工位上看看视频啥的,这正常吗?
程序员小白条:实习就是摸鱼,只是公司指标,把你进来了,可能那时候客户很多,但等你进来的时候,已经是淡季了,根本没多少需求,或者说根本不适合实习生去完成,因此你就每天干坐着就行,可能1,2个月都没需求
实习生的蛐蛐区
点赞 评论 收藏
分享
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务