首页 / 大模型
#

大模型

#
418795次浏览 6240人互动
此刻你想和大家分享什么
热门 最新
03-19 14:58
腾讯_HR
腾讯-混元大模型面经-华5硕
部门与岗位:TEG - 混元大模型团队 - 大模型对齐一面自我介绍,过实习,讲论文,论文过的比较细,有说的笼统的地方面试官会实时进行询问交流了解哪些大模型,简要挑一两个介绍一下,当时说了 Qwen 和 DeepSeek,然后面试官又问了这两个有什么区别接着上一问,为什么大家都开始探索 MoE 架构,MoE 相比 Dense 有什么好处在之前实习的时候用 LoRA 微调过 Qwen,于是问了有没有全量微调过,有没有对比过两者的性能表现讲一下大模型训练和推理的流程,SFT 和 RLHF 的作用分别是什么在 RLHF 中,目前主流的强化学习算法有哪几个,写一下损失函数的表达式代码:22. 括号生成代码:多头自注意力一面问的八股还是比较多的,问的也比较细,而且还写了两道代码题,整个面试花的时间也比较多,大概一个半小时左右二面自我介绍,过实习和论文,面试官会一起进行探讨,包括工作的动机、贡献和结果,也会提一些问题和建议之前实习用 DeepSpeed 微调过 Qwen2-72B,于是面试官问了 ZeRO-1,ZeRO-2,ZeRO-3 三个模式的区别当时你用 DeepSpeed ZeRO-3 来微调 Qwen2-72B,每一张卡占用的显存大概是多少,估算一下为什么是占这么多的显存除了 DeepSpeed,还用过其他的什么优化方法吗我看你也用到了 LoRA,知道 LoRA 的原理吗,A 和 B 两个矩阵怎么初始化,有了解过其他的初始化方法吗对 RLHF 了解的多吗代码:3. 无重复字符的最长子串二面更多的是结合具体的工作来问的,从用到的东西来引出问题,问的也比较灵活。当然因为部门主要是做对齐的,所以也大概聊了聊 RLHF三面自我介绍,挑一个觉得做的比较好的论文和实习讲一下,面试官问的比较详细,为什么选现在这种方案,为什么 work,其他方案有考虑吗在微调 Qwen 的时候,数据是怎么构造的,有用到什么数据清洗方法吗,数据配比是怎么做的讲一下 RLHF 的流程,之前有用 RLHF 做过模型对齐吗在做对齐的时候,为什么 SFT 之后还要做 RLHF,只用 SFT 可以吗知道哪些强化学习算法,除了 PPO 和 DPO 这些呢,DeepSeek 用的 GRPO 相比于 GPT 的 PPO 做了哪些改进开放题:对目前大模型的发展有什么看法代码:零钱的两个题 322. 零钱兑换518. 零钱兑换 II三面面试官更聚焦于对齐这一块的内容,考的比较深。由于之前没有接触过强化学习,答得还是比较吃力的,不过面试官还挺好的,会一起讨论来做引导四面自我介绍,过论文和实习,问的也比较细,这里能明显的感受出来面试官的视角更系统,会把这些工作串起来问我看你简历上没写 RLHF,平常有用过 RLHF 吗推导一下神经网络反向传播的过程一道排列组合的概率题开放题:你觉得大模型目前还有哪些可以改进的点四面整体更看重思维和基础,没有考察什么八股总结一共四轮技术面,整体来说强度比较大,对于大模型八股的考察比较细,对大模型的理解问的也比较深刻,包括一些数理逻辑基础,考察的比较全面需要内推码的可以用下面这个链接:内推链接:https://join.qq.com/resume.html?k=ANQI6RfQ3rhPS2dpyIkeSw#26届实习##大模型##八股##面经##腾讯##内推#
腾讯
|
实习
|
超多精选岗位
点赞 评论 收藏
分享
讲讲面试经验
ps:上一篇受到挺多人质疑,主要是学历和offer的戏剧性差别太大不过大概清楚我bg的都信了。还有不信的你们当个乐子看也行我主要面试方向是大模型落地算法,做业务的。我的面试秉承两个要点:1.自信:做业务的面试官一般和ailab等研发部门不一样,你要相信面试官不一定有你水平高,所以要在面试中感染他,让他相信你很牛。(这背后一定是扎实的八股基础和实践经验)2.指标主义:做业务多了其实大家都知道,大部分时间策略比技术更重要,唯一能量化的只有产出指标。我在简历上大量标出了项目的小环节指标、阶段性指标、里程碑指标、中间指标、最终输出指标、转化率,每个指标对应能带来项目什么方面的提升。同时在面试过程中会和面试官讨论每个指标的定义和变化带来的影响,比如chatbot类项目就应该更关心dau和留存率。同时阐述自己对指标的看法,每个技术or策略为什么能带来这种指标的提升。经过这样,面试官一定会感受到你对业务的理解度,以及对项目整体的把控。下面讲讲面试的每个环节我都是怎么理解的,以及我的做法。自我介绍环节:这个部分其实挺重要的,你可以在这里秀出你的腕力,同时展示自己擅长的方向,提出自己的highlight point,如果有面试官对你这部分某个点感兴趣,那就算有了一个好的开始。至于我自己,我会将自我介绍分成两部分:1)工作经历:重点介绍自己的实习、项目、实习产出情况,以及工作期间的高光,旨在展示自己对业务的理解,这部分不应该是用来展示技术深度的;2)算法基本功:重点介绍自己的比赛、论文、实践经验等,这部分主要用来介绍自己的技术深度,最好能给出一些数字,比如顶会几篇、xx比赛冠军几个、大模型sft卡时共计xx小时。项目讲述环节:这部分主要用来展示业务理解,就像我上面说到的,需要对整个项目的周期、指标有比较深的理解。在这方面,我认为在公司参与一个大项目(有技术深度)不如独立负责一个项目的开发,这样能够有效了解一个项目的立项到上线及之后的周期、指标设立、埋点构建、里程碑、各阶段迭代方向、标注体系构建、日常审核体系建设、数据飞轮的构造方法。但大部分实习生都是承接mentor的一定工作,实际上只能负责一个小part,所以我建议还是在周会上多听、下来多问,为什么这些指标会产生这样的变化,同时也要了解项目其他环节的指标和技术方案,以及方案选型的特点。最重要的是,要了解项目的核心输出指标,以及这个指标能够怎样带来实际收益转化、具体的转化率。同时也要知道你的部分每个策略对核心输出指标的贡献度。(总而言之,这部分还是展示你在实习期间的见识多广,很多东西实际上都非常简单,但是经历过这些比项目本身的难度更重要)比赛、论文展示环节:这部分主要展示你的技术深度,把你的高光点详细阐述,具体到每个人身上都不一样,所以就不细讲了。八股环节:这里最好的方法是在讲述项目、论文、比赛的过程中就叙述一些这个方向的八股,比如讲llm的时候可以讲讲发展史、技术方案的借鉴算法来源,实现的细节,或者和技术方案相似的算法。尽量不要给面试官额外的时间专门提问八股,这样八股方向就不可控且体验不好手撕环节:多刷题吧,记几个让我印象比较深的手撕题:1.np实现FFN的forward和backward;2.GQA的torch实现;3.BPE tokenizer的大致实现反问环节:我一般会问面试官组里的项目情况,同时讨论指标和流量的分配关系(这里也大致能看出组里的项目重视度和发展前景),以及大概技术方案的设计,值得注意的是,最好在这环节问一下能够引发讨论的问题,而不是面试官简单回答即可的问题。 #大模型#  #秋招#  #算法岗#  #数据人的面试交流地#  #简历中的项目经历要怎么写#  #我发现了面试通关密码#  #面试#  #面试经验#
华师牛马哥:我室友也是大模型,双非本211硕,一开始学后端找不到实习,后面就学了大模型一两个月,看出来行情应该还可以,后端都没约面,大模型都还是给面,最后7月份了,拿了同花顺和同城还有一些小厂的,同花顺一个月一万多实习工资,大模型我觉得有机会,反倒后端真没机会,吹出花来,都不可能给二本SSP
点赞 评论 收藏
分享
玩命加载中
牛客网
牛客企业服务