自我介绍手撕算法介绍LSTM,有几个门,和GRU以及RNN的区别。LSTM有输入输出遗忘门,GRU有重置更新门。都是RNN的变体。LSTM是怎么解决梯度消失问题的?cell state的加法可以使梯度大于1,逻辑门参数可以一定程度上控制梯度消失。LSTM和GRU哪个训练得更快?GRU更快。transformer的encoder和decoder有什么不同?结构上和任务上。transformer的decoder为什么要用掩码?swin transformer的优势。梯度反向传播的原理。链式求导得到误差对于各个权重系数的偏导,然后通过梯度下降算法更新权重,从而最小化损失函数。常用的优化器有哪些?transformer为什么在大批量数据上表现更好?自注意力机制和分布式并行训练。RNN变体有训练瓶颈吗?有,梯度消失或爆炸。反问。部门以及团队情况。