2024-09-20 00:57 已编辑门头沟学院算法工程师发布于陕西

关注

京东三面面经

1. 自我介绍

2. transformer中softmax的作用？不做softmax会有什么问题？Softmax怎么解决上下溢的问题？除了减去最大值还有方法？
3. selfattention 和传统attention 的区别？为什么Q K矩阵要不一样？Q K相同会怎么样？
4. BERT的CLS token的作用？这个CLS在下游分类任务的效果不好，有什么不用CLS的改进方法吗？用BERT做分类如何更好表达句子含义？BERT的输出有几种？对应BERT中的哪两个函数？BERT当中哪些计算是线性的哪些是非线性的？BERT是怎么区分一词多义的？
5. 学习率warmup的用法和作用？解释梯度消失的原因和解决方法，Dropout可以解决梯度消失吗？
6. BERT和GPT各自结构的优势？如果大模型以后部署、速度都得到了很大的提升，BERT会被取代吗？
7. GBDT和随机森林的区别？各自的方法流程？各自的数据处理的特点？各自偏向于解决什么问题？GBDT和随机森林对异常值的敏感程度？随机森林随机体现在哪些地方？
8. 讲一下BN和LN，Transformer问什么不用BN？
9. LORA微调的目的？LORA可以增加领域知识吗？LORA矩阵初始化？两个矩阵的初始化反过来会怎么样？LORA微调的超参？
10. LLM复读机问题以及解决方法有哪些？怎么抑制LLM的幻觉问题？常用的位置编码有哪些？一些对原始attention的改进有哪些？
11. 为什么要用多头注意力？多头的思想和QKV三个不同投影矩阵的思想的异同？QKV矩阵除了增加表达能力以外还有什么作用？（不太懂问的是啥，面试官后面提示说是还有降维的作用，不是很懂）类似多头的集成的思想在什么算法里面比较常见？（我答了机器学习的集成学习类，比如前面的随机森林，还说了MOE这种，面试官比较想听到的是多尺度CNN）

修改了一些内容，恢复开放了，之前热度太高有点😨

#京东求职进展汇总# #软件开发笔面经#

全部评论

推荐最新楼层

门头沟学院算法工程师

八股仙人

13 回复分享

发布于 2024-09-10 20:22 北京

秋招别折磨我了求求你

中国科学技术大学算法工程师

没绷住，和我完全一样的面经，我也今天面的，晚上就挂了

6 回复分享

发布于 2024-09-10 23:40 上海

爱打瞌睡的柯基

门头沟学院自然语言处理

已经能感受到面试的时候的窒息感了

5 回复分享

发布于 2024-09-10 20:45 广东

中国科学技术大学机器学习

这八股也太炸裂了😂

4 回复分享

发布于 2024-09-10 20:32 安徽

牛客都很牛

门头沟学院算法工程师

😂你这nlp岗含金量妥妥拉满啊😂

3 回复分享

发布于 2024-09-11 00:17 陕西

希望有好offer

北京工业大学算法工程师

https://zhuanlan.zhihu.com/p/360343071

2 回复分享

发布于 2024-09-10 20:53 北京

优秀的布莱恩在提需求

电子科技大学算法工程师

我去，这八股的拷打

1 回复分享

发布于 2024-09-11 11:18 四川

想和你交朋友的芒果在努力

门头沟学院算法工程师

佬，时间线可以说一下吗

点赞回复分享

发布于 2024-09-10 20:35 北京

东南大学算法工程师

人傻了

点赞回复分享

发布于 2024-09-11 14:48 北京

慢热的一面杀手

南京理工大学前端工程师

难死了

点赞回复分享

发布于 2024-09-11 15:12 江苏

门头沟学院算法工程师

请问一下是什么部门呀

点赞回复分享

发布于 2024-09-20 09:41 辽宁

门头沟学院算法工程师

有点像KPI，是不对口吗，为啥项目没问？

点赞回复分享

发布于 2024-09-20 16:43 辽宁

番茄土豆芒果汁、

字节跳动_算法实习生(实习员工)

woc，传统算法现在也常问么😱

点赞回复分享

发布于 2024-09-30 21:12 安徽

天津大学算法工程师

请教一下，lora两个矩阵的初始化反过来会怎么样？答案应该是怎样的呢

点赞回复分享

发布于 2024-10-13 15:13 上海

昨天 15:41

北京理工大学算法工程师

北京智源人工智能研究院一面

1.自我介绍2.提问：a.yolo里面有什么比较让你感到有意思的点？b.yolo学术界最新的迭代是在干什么，怎么优化yolo的架构？c.yolo的前处理和后处理？d.SLAM有什么用？e.是否了解大模型？f.yolo的损失?g.最近读过的比较有意思的论文？3.手撕NMS总结：感觉hr不是搞CV和SLAM的，一直在问学术上的东西，感觉还是比较偏学术。项目相关东西根本没问，可能AI研究院就是这样的。

北京智源人工智能研究院一面2人在聊

查看8道真题和解析

点赞评论收藏

分享

03-17 17:44

门头沟学院 C++

避雷上海芯钬量子

1.求职时间拉的很长，分为一面二面三面，大约在两个星期2.也是最重要的一点，哪怕你最后进行到最终面了，你的位置也有可能被走后门的人给顶了我二面完成的很好，入门级的考核我入门级的全部做完了+中级考核完成了50%，我本以为至少第二名没有问题，先是给我发邮件说gtest的内容没做，我一看是中级考核内容，反馈之后说我能力有问题，是的，就这个原因没有一点具体的理由，我请问呢，你们到底是招初级的还是中级的，如果是招中级的请问为什么开初级的薪资呢，后面问hr才知道原来是名额被关系户顶替去了，我真谢谢你耽误我两个星期我建议贵公司真的，不想好好招人就不要出来祸害人了避雷#避雷公司#

校招求职吐槽

点赞评论收藏

分享

03-24 15:30

已编辑

门头沟学院算法工程师

大模型面经每日总结

BP16 和 FP16 在存储结构、精度表现、数值范围以及适用场景方面有什么不同？训练时使用bf16更稳定，表示范围大，并且自带隐式正则化buffer；推理时使用fp16比bf16更好，因为fp16表示精度高。 https://www.zhihu.com/question/616600181/answer/3194881239怎么解决训练使用float16导致溢出的问题？使用 缩放因子 trick混合精度训练kv-cache的作用一种缓存技术，通过存储键值对的形式来复用计算结果，以达到提高性能和降低内存消耗量化方法的分类按量化对象分：KV Cache量化、模型权重量化、激活值量化-按量化阶段分...

查看6道真题和解析

点赞评论收藏

分享

03-19 14:58

腾讯-混元大模型面经-华5硕

部门与岗位：TEG - 混元大模型团队 - 大模型对齐一面自我介绍，过实习，讲论文，论文过的比较细，有说的笼统的地方面试官会实时进行询问交流了解哪些大模型，简要挑一两个介绍一下，当时说了 Qwen 和 DeepSeek，然后面试官又问了这两个有什么区别接着上一问，为什么大家都开始探索 MoE 架构，MoE 相比 Dense 有什么好处在之前实习的时候用 LoRA 微调过 Qwen，于是问了有没有全量微调过，有没有对比过两者的性能表现讲一下大模型训练和推理的流程，SFT 和 RLHF 的作用分别是什么在 RLHF 中，目前主流的强化学习算法有哪几个，写一下损失函数的表达式代码：22. 括号生成代码：多头自注意力一面问的八股还是比较多的，问的也比较细，而且还写了两道代码题，整个面试花的时间也比较多，大概一个半小时左右二面自我介绍，过实习和论文，面试官会一起进行探讨，包括工作的动机、贡献和结果，也会提一些问题和建议之前实习用 DeepSpeed 微调过 Qwen2-72B，于是面试官问了 ZeRO-1，ZeRO-2，ZeRO-3 三个模式的区别当时你用 DeepSpeed ZeRO-3 来微调 Qwen2-72B，每一张卡占用的显存大概是多少，估算一下为什么是占这么多的显存除了 DeepSpeed，还用过其他的什么优化方法吗我看你也用到了 LoRA，知道 LoRA 的原理吗，A 和 B 两个矩阵怎么初始化，有了解过其他的初始化方法吗对 RLHF 了解的多吗代码：3. 无重复字符的最长子串二面更多的是结合具体的工作来问的，从用到的东西来引出问题，问的也比较灵活。当然因为部门主要是做对齐的，所以也大概聊了聊 RLHF三面自我介绍，挑一个觉得做的比较好的论文和实习讲一下，面试官问的比较详细，为什么选现在这种方案，为什么 work，其他方案有考虑吗在微调 Qwen 的时候，数据是怎么构造的，有用到什么数据清洗方法吗，数据配比是怎么做的讲一下 RLHF 的流程，之前有用 RLHF 做过模型对齐吗在做对齐的时候，为什么 SFT 之后还要做 RLHF，只用 SFT 可以吗知道哪些强化学习算法，除了 PPO 和 DPO 这些呢，DeepSeek 用的 GRPO 相比于 GPT 的 PPO 做了哪些改进开放题：对目前大模型的发展有什么看法代码：零钱的两个题 322. 零钱兑换518. 零钱兑换 II三面面试官更聚焦于对齐这一块的内容，考的比较深。由于之前没有接触过强化学习，答得还是比较吃力的，不过面试官还挺好的，会一起讨论来做引导四面自我介绍，过论文和实习，问的也比较细，这里能明显的感受出来面试官的视角更系统，会把这些工作串起来问我看你简历上没写 RLHF，平常有用过 RLHF 吗推导一下神经网络反向传播的过程一道排列组合的概率题开放题：你觉得大模型目前还有哪些可以改进的点四面整体更看重思维和基础，没有考察什么八股总结一共四轮技术面，整体来说强度比较大，对于大模型八股的考察比较细，对大模型的理解问的也比较深刻，包括一些数理逻辑基础，考察的比较全面需要内推码的可以用下面这个链接：内推链接：https://join.qq.com/resume.html?k=ANQI6RfQ3rhPS2dpyIkeSw#26届实习##大模型##八股##面经##腾讯##内推#

点赞评论收藏

分享

03-08 12:37

门头沟学院算法工程师

算法面经3：nlp和llm，商汤科技

商汤 LLM (2+0)🥲 二面后挂了1. 主要是以项目为主，讲完项目，提问发散问题以及八股。2. Baichuan2-7B的架构讲一下，有什么特别之处？3. Lora微调7B模型，可训练参数是多少？显存占用如何？4. 介绍下Lora以及qlora的区别5. 其它多模态对齐方式有哪些？6. LSTM与Transformer的区别，以及后者的优势？7. 讲解下scaling law8. 预训练一般分为哪些阶段，每个阶段的特点有何区别？#春招# #实习# #秋招# #ai算法工程师# #大模型# #nlp算法工程师# #商汤科技#

查看7道真题和解析

点赞评论收藏

分享

评论

41

188

招聘动态

字节跳动-Tik Tok

26届实习招聘

米哈游

2025春季校园招聘

阿里大文娱

25届补录&26届实习

招商银行数字金融训练营

火热报名中

小米集团

25届校招+26届实习

26届实习生双选会报名开启

满帮集团

2025春季校园招聘

网易游戏雷火

25届校招&26届精英实习招聘

联想

25届校招+26届实习

京东JDY实习生计划

火热招聘中

全站热榜

更多

创作者周榜

更多

正在热议

更多

2284011次浏览 26851人参与

# 22届毕业，是读研还是拿外包offer先苟着 #

7002次浏览 35人参与

# 招行数字金融训练营 #

108610次浏览 458人参与

# 牛友故事会 #

443986次浏览 10617人参与

# 毕业季，你想好怎么跟生活对线了吗？ #

180132次浏览 3350人参与

# 传音控股求职进展汇总 #

11353次浏览 109人参与

# 腾讯云智研发2025实习生招聘 #

108560次浏览 1311人参与

# 实习必须要去大厂吗？ #

79016次浏览 1177人参与

# 得物求职进展汇总 #

82805次浏览 744人参与

# 讲讲我经历过的裁员 #

28598次浏览 129人参与

# 牛友们的论文几号送审 #

22182次浏览 573人参与

# 实习学不到东西怎么办？ #

183982次浏览 1967人参与

# 职场破防瞬间 #

44511次浏览 597人参与

# 硬件人的春招flag #

37257次浏览 400人参与

# Offer比较，你最看重什么？ #

138105次浏览 875人参与

# 元戎启行求职进展汇总 #

27483次浏览 206人参与

# 入职第四天，心情怎么样 #

23163次浏览 345人参与

# 这些公司卡简历很严格 #

22905次浏览 93人参与

# 25届秋招公司红黑榜 #

251487次浏览 1057人参与

# 硬件人秋招的第一个offer #

61724次浏览 1058人参与

# 同程旅行工作体验 #

3317次浏览 20人参与

# 小红书工作体验 #

44298次浏览 396人参与

牛客网
牛客企业服务