阿里小蜜(提前面): 因为主要做对话,所以对我的对话项目感兴趣,但是我在这个的项目工作实在太少,回答不理想。接着问我为什么BERT能做的很深,列举了BERT中的残差结构,问我还有哪些。我说了self-attention 能并行计算,这样可以在大语料上训练,缓解过拟合,另外layer normalization也有帮助,好像不太满意,然后问深度学习中怎么缓解梯度消失。接着问还知道哪些文本匹配的算法,我说不知道了。 腾讯: 一面:堆排序、二叉树的公共祖先、第k大的数 介绍BERT(encoder,decoder讲了一下),问了transformer、rnn和lstm...