整理了一波NLP常考的面试题

1.rnn真的就梯度消失了吗?
2.lstm到底解决了什么?解决了梯度消失?
3.LSTM三种门以及sigmoid函数对每个门的作用
4.Self-attention的Query,Key,Value分别是什么

5.Slef-attention的乘法计算和加法计算有什么区别?什么时候乘比较好,什么时候加?为什么要除以一个根号?

6.LSTM中各模块分别使用什么激活函数,可以使用别的激活函数码?

7.多头注意力机制的原理是什么?

8.Transformer用的是哪种attention机制?

9.画一下Transformer结构图

10.word2vector 如何做负采样?是在全局采样?还是在batch采样?如何实现多batch采样?怎么确保采样不会采到正样本?word2vector负采样时为什么要对频率做3/4次方?

11.W2V经过霍夫曼或者负采样之后,模型与原模型相比,是等价的还是相似的?

12.介绍一下sigmoid 和 relu,relu有什么缺点?

13.深层神经网络为什么不好训?除了梯度消失还有哪些原因?


#机器学习##学习路径#
全部评论

相关推荐

明天不下雨了:我靠2022了都去字节了还什么读研我教你****:你好,本人985电子科大在读研一,本科西南大学(211)我在字节跳动实习过。对您的岗位很感兴趣,希望获得一次投递机会。
点赞 评论 收藏
分享
评论
5
39
分享

创作者周榜

更多
牛客网
牛客企业服务