1.attention的种类2.NMT为什么要引入attention,以及attention是如何使用的3.K,Q,V的含义以及如何计算的4.手撕算法:字符串压缩5.梯度消失以及梯度爆炸在LSTM中如何抑制的
相关推荐