京东三面面经
1. 自我介绍
2. transformer中softmax的作用?不做softmax会有什么问题?Softmax怎么解决上下溢的问题?除了减去最大值还有方法?
3. selfattention 和传统attention 的区别?为什么Q K矩阵要不一样?Q K相同会怎么样?
4. BERT的CLS token的作用?这个CLS在下游分类任务的效果不好,有什么不用CLS的改进方法吗?用BERT做分类如何更好表达句子含义?BERT的输出有几种?对应BERT中的哪两个函数?BERT当中哪些计算是线性的哪些是非线性的?BERT是怎么区分一词多义的?
5. 学习率warmup的用法和作用?解释梯度消失的原因和解决方法,Dropout可以解决梯度消失吗?
6. BERT和GPT各自结构的优势?如果大模型以后部署、速度都得到了很大的提升,BERT会被取代吗?
7. GBDT和随机森林的区别?各自的方法流程?各自的数据处理的特点?各自偏向于解决什么问题?GBDT和随机森林对异常值的敏感程度?随机森林随机体现在哪些地方?
8. 讲一下BN和LN,Transformer问什么不用BN?
9. LORA微调的目的?LORA可以增加领域知识吗?LORA矩阵初始化?两个矩阵的初始化反过来会怎么样?LORA微调的超参?
10. LLM复读机问题以及解决方法有哪些?怎么抑制LLM的幻觉问题?常用的位置编码有哪些? 一些对原始attention的改进有哪些?
11. 为什么要用多头注意力?多头的思想和QKV三个不同投影矩阵的思想的异同?QKV矩阵除了增加表达能力以外还有什么作用?(不太懂问的是啥,面试官后面提示说是还有降维的作用,不是很懂)类似多头的集成的思想在什么算法里面比较常见?(我答了机器学习的集成学习类,比如前面的随机森林,还说了MOE这种,面试官比较想听到的是多尺度CNN)
修改了一些内容,恢复开放了,之前热度太高有点😨
#京东求职进展汇总# #软件开发笔面经#
2. transformer中softmax的作用?不做softmax会有什么问题?Softmax怎么解决上下溢的问题?除了减去最大值还有方法?
3. selfattention 和传统attention 的区别?为什么Q K矩阵要不一样?Q K相同会怎么样?
4. BERT的CLS token的作用?这个CLS在下游分类任务的效果不好,有什么不用CLS的改进方法吗?用BERT做分类如何更好表达句子含义?BERT的输出有几种?对应BERT中的哪两个函数?BERT当中哪些计算是线性的哪些是非线性的?BERT是怎么区分一词多义的?
5. 学习率warmup的用法和作用?解释梯度消失的原因和解决方法,Dropout可以解决梯度消失吗?
6. BERT和GPT各自结构的优势?如果大模型以后部署、速度都得到了很大的提升,BERT会被取代吗?
7. GBDT和随机森林的区别?各自的方法流程?各自的数据处理的特点?各自偏向于解决什么问题?GBDT和随机森林对异常值的敏感程度?随机森林随机体现在哪些地方?
8. 讲一下BN和LN,Transformer问什么不用BN?
9. LORA微调的目的?LORA可以增加领域知识吗?LORA矩阵初始化?两个矩阵的初始化反过来会怎么样?LORA微调的超参?
10. LLM复读机问题以及解决方法有哪些?怎么抑制LLM的幻觉问题?常用的位置编码有哪些? 一些对原始attention的改进有哪些?
11. 为什么要用多头注意力?多头的思想和QKV三个不同投影矩阵的思想的异同?QKV矩阵除了增加表达能力以外还有什么作用?(不太懂问的是啥,面试官后面提示说是还有降维的作用,不是很懂)类似多头的集成的思想在什么算法里面比较常见?(我答了机器学习的集成学习类,比如前面的随机森林,还说了MOE这种,面试官比较想听到的是多尺度CNN)
修改了一些内容,恢复开放了,之前热度太高有点😨
#京东求职进展汇总# #软件开发笔面经#
全部评论
八股仙人
没绷住,和我完全一样的面经,我也今天面的,晚上就挂了
已经能感受到面试的时候的窒息感了
这八股也太炸裂了😂
😂你这nlp岗含金量妥妥拉满啊😂
https://zhuanlan.zhihu.com/p/360343071
佬,时间线可以说一下吗
我去,这八股的拷打
人傻了
难死了
请问一下是什么部门呀
有点像KPI,是不对口吗,为啥项目没问?
woc,传统算法现在也常问么😱
请教一下,lora两个矩阵的初始化反过来会怎么样?答案应该是怎样的呢
相关推荐
点赞 评论 收藏
分享