快star大模型应用面经

第一次分享,攒人品!

一面
🕒 岗位/面试时间
快star大模型应用/8月9日早上

👥 面试题目
1.自我介绍
2.题目 leetcode300 最长递增子序列 15min 没让讲思路
3.研究进展,投什么会议
4.实习经历
5.实习项目中数据是怎么做的
追问,数据收集过程中是否有人工处理
蒸馏效果不好的原因是什么,用了什么额外的方式
有没有做量化和加速
6.偏好数据集是什么,偏好怎么定义的
偏好是怎么增强的
7.什么是打判,怎么打判的
使用的什么模型
8.如何解决模型幻觉(分方法,数据,prompt,微调,RAG等等)
9.长token输入效果衰减如何解决,效果如何(长度外推问题,建议直接看苏神的blog)
10.moe和dense模型的区别,各自的优缺点(随便答了一下moe效率高,每次激活一部分参数,但是同等参数量效果应该没有dense好)

反问:组里主要做对内的大模型应用,包括code辅助,个人RAG之类的

🤔 面试感受
面试官人很好,提问欲望强烈,实习经历问的很细,会对着简历上的东西一条一条问,本来还要问我的研究但是没时间了,最后问了三个简单的八股

💢 背景
双C9,一段实习,无论文(或者说正在写)

希望能对大家有帮助!
#面经#

等一下结果
-----------
更新,直接寄!果然人才计划不会要我这种没论文的小菜鸡吗
全部评论
快手面试体验还是可以的
1 回复 分享
发布于 08-09 21:09 上海
佬总结下llm学习路线
1 回复 分享
发布于 08-10 21:36 北京
天翼云科技有限公司
校招火热招聘中
官网直投
我理解这个岗应该是偏dev,rag agent哪些?
1 回复 分享
发布于 08-16 19:31 上海
确实,我也是这个直接挂
1 回复 分享
发布于 08-16 21:16 浙江
图挺不错的
1 回复 分享
发布于 08-20 15:47 上海
同一个岗位 本来觉得还行,然后挂了
1 回复 分享
发布于 08-22 11:28 北京
太强了
点赞 回复 分享
发布于 08-23 19:38 江苏
同学,考虑字节商业化LLM算法嘛~
点赞 回复 分享
发布于 09-03 09:47 北京

相关推荐

  面向对象:世界范围中国国籍25届本硕博在校生(组内有天才少年名额)岗位: AI(算法)工程师(计算机视觉,自然语言处理)组内情况:1. 总共十余人,无od,全正职。且大部分人升级都很快。组长8年升5级,入职14现在已是19级专家。2. A100/A800卡数三位数,华为计算卡四位数。(那么多部门说all in AI却凑不出8张A800)。3. 留学生友好,本人本硕皆在英国就读,领导格局很大,包容性极强,无表演性加班。(本人124到8:30,35到5:30)4. 预训练微调都有涉及。待遇情况:1. 会战较多,出差待遇顶格,补贴顶格,绝不抠搜。2. 试用期期间即可周末报加班拿双倍工资,周末报加班无限制。周末加完周一便可申报入系统。3. 由于是AI工程师需要去训练,入职时可笔记本台式二选一。候选人要求:1. 鼓励留学生投递,留学生友好,且hc充足。2. 对大模型经验无要求,但希望AI竞赛或是AI发表论文。Base地:1. 官网上:上海 北京 杭州 南京 深圳 西安 成都2. 入职offer大概率倾向于上海。组内转base地很方便无卡点。Real Talk:1. 真心招人,不会先让你去投递管你要简历编号锁你简历。首先门槛不低,不鼓励无脑投导致过不了初筛。我也没有招人简历数kpi。先聊再做决定。2. 简历可直接通过我递给19级专家先阅览,较为合适才会鼓励投递。3. 本人和hr关系很熟,25届实习生我帮组里招了三个,整体流程十分清楚。同时可以做出承诺,一旦聊后合适投递,会帮你催流程更新进展。一旦面试夭折会立刻让hr释放流程,这样可以去投其他部门。4. 每招一个人都会有一些奖金,留学多年我已不在乎这点碎银,所以不会去骗投,没有机会我会不建议投递。另外附上暑期入职实习生背景仅供参考:1. Top 3 跨专业博士,方向与CV有交叉。2. Top 3 自动驾驶硕士,多个自动驾驶竞赛奖项。3. 强211研究生,方向为多模态大模型,与组里十分匹配。有兴趣的人选可以后台私聊我。
投递华为等公司10个岗位
点赞 评论 收藏
分享
具体是做大模型训练套件的中台组,所以很考察涉及大模型内部计算的细节。1.自我介绍2.手撕 和最大的连续子序列3 写一个多头注意力 reshape transpose4 为什么要使用多头注意力 更多的qkv嵌入更好的表达能力5 单头注意力和多头注意力计算量比较。多头略多一些,具体应该是多在多头注意力concat之后的又一次线性变换上。这题当时没答对。6 为什么使用gqa,gqa的好处有啥。略微减少参数量,均衡性能并减少kv cache的压力。7 为什么是kv cache 而不是qv cache。我理解是,如果是qv cache,这东西能算的注意力是最后一列而不是最后一行,这种计算甚至是反因果系统这个前提的,我感觉我的解释有道理,但面试官不满意,可能有更好的答案。8 lora具体为什么能减少计算过程中的显存占用,具体减少在那部分上了?我认为权重和前向过程中的激活值在加上lora之后,整体也不会少太多,那么少的只能是来自梯度和优化器状态,其中大头是优化器状态。9 拷打Megatron中的张量并行都存在哪些地方,具体如何做张量并行,当时没太完全看透Megatron(虽然现在也没看透),所以这题直接爆炸了。10 具体来说Megatron在transformers中的张量并行,可以发生在mlp,attention,embedding,cross entropy这几块。在mlp上,存在一个因为非线性变换,而对两个矩阵乘中的右侧矩阵列split,左侧矩阵不切的方式进行并行,减少一个同步点。attention中的并行主要是对头并行。embedding和cross entropy中这是要减少vocab这个超大纬度给计算带来的压力,做vocab纬度的张量并行。11 见我Megatron 张量并行打的不是很好,可能是想引导一下,面试官问我长文本训练中,需要算loss的token很多,怎么缓解这个过程的计算压力,我觉得他当时想引导我讲cross entropy的张量并行的,但我当时没想到。反问 很套路的了解部门业务结果 面完秒挂 😭 #如何判断面试是否凉了# #百度求职进展汇总# #互联网没坑了,还能去哪里?#
点赞 评论 收藏
分享
22 42 评论
分享
牛客网
牛客企业服务