2024-09-15 13:40 已编辑中山大学算法工程师发布于广东

关注

滴滴大模型面经

本人只做点业务数据sft, 做的更加偏向于粗糙业务，直接被拷打麻了，望佬看到可以给我指点一下

1. 现在有一个非常完备的sft指令集，你只能选择1w条，你如何选择数据来使模型的能力更加提升+完备？
2.我们知道sft的时候尽量不要注入知识给模型，因为只希望sft可以提升模型的指令遵循的能力，注入知识的话，可能会导致后面使用的时候模型容易出现幻觉，那我们怎么确保自己选择的这1w条数据没注入知识给模型呢？
3.7b和13b模型微调同一批数据，学习率哪个大？
4. Pretrain/sft/ppo学习率怎么变换？
5. 学习率和batch大小变化一致吗？
6. 做表征学习的时候，模型坍塌的原因？
7. 为什么做rm的时候，用不同的小模型大模型来采样生成后训练出来的rm会比以前那种方法奏效？这很反直觉，因为按照直觉来说的话，这种方式可能会让rm偏向某个权威的模型
8. 现在有很多种方法，有做完pt直接做rlhf的，也有按班就步的pt-sft-rlhf的，还有直接不做rlhf的，你觉得为什么这些方法都有效，你觉得是什么原因造成的？

#滴滴##秋招##面经# #算法# #八股#

全部评论

推荐最新楼层

河北师范大学附属中学自然语言处理

搞这么细啊。有些答案可以去llama3.1的技术报告参考，其他的等大佬回答

6 回复分享

发布于 2024-09-14 15:37 陕西

牛客344243631号

门头沟学院算法工程师

通常lr缩放倍数为batch size倍数的开方。例如batch size增大4倍，学习率对应扩大2倍即可。

4 回复分享

发布于 2024-09-14 20:40 辽宁

temu一号内tui官

拼多多集团-PDD_算法工程师

对TEMU有想法的戳我哈

1 回复分享

发布于 2024-09-22 15:45 上海

门头沟学院算法工程师

佬这是几面啊，滴滴是连着面吗🙌

1 回复分享

发布于 2024-09-15 01:15 广东

算法工程师

蹲蹲答案

1 回复分享

发布于 2024-09-14 18:14 美国

生产日期是今天

门头沟学院算法工程师

蹲蹲答案

点赞回复分享

发布于 2024-10-03 00:59 安徽

temu一号内tui官

拼多多集团-PDD_算法工程师

我们这大模型搜推方向来试试嘛

点赞回复分享

发布于 2024-09-23 16:04 上海

03-24 19:15

南京大学算法工程师

美团 LLM暑期实习（已OC）

一面简历项目如何计算模型的参数量？Deepseek R1有哪些特点？有了解过预训练模型吗Code：合并有序数组反问二面简历项目Deepseek MLAKV Cache有哪些好处GRPO，PPO，DPO各自的优势和劣势Code：层次遍历二叉树反问，base主要做RL相关的，3.24OC

奔放的小鲸鱼想当offer收割机：接好运

点赞评论收藏

分享

03-21 17:53

大连理工大学 Python

1h1. 为什么要用dpo，什么任务要用dpo，不用可以吗，用了好处在哪，能优化哪里2. dpo ppo异同，dpo详细原理，loss3. 任务为什么不能只用sft4. 现在的推理模型是怎么训出来的，重点你感觉是哪里，哪里是让这些模型获得推理能力的点5. r1原理6. prm 和orm讲一讲，什么情况prm 什么情况orm，哪种更好，重点讲prm的优缺点，为什么现在的推理模型没有用prm手撕。一个字符串列表，一个长字符串，判断长字符串是否能用这个字符串列表里的词组成。没做出来，寄寄寄

查看6道真题和解析

点赞评论收藏

分享

昨天 21:55

已编辑

北京理工大学算法工程师

腾讯pcg 三面总监面多模态(已进hr面)

自我介绍项目deepspeed zero 的三个状态？1b 的模型需要多少显存？16G。模型2g,梯度2g，优化器状态4g+4g(以adam为例，一阶动量32位和二阶动量32位)。如果有32位的模型参数的备份，就还有4g。一共2+2+4+4+4=16g。adam 优化器的形式？Adam优化器中：一阶矩估计：用于引入动量，使参数更新具有“惯性”，加速收敛，同时平滑梯度，减少噪声影响，让参数更新更稳定。二阶矩估计：通过衡量梯度方差，自适应调整各参数维度的学习率，使不同维度都能以合适速度更新，还能有效处理稀疏梯度问题。dpo ppo grpo的区别？为什么用llava 不用qwen-vl？在图文检索...

查看11道真题和解析

点赞评论收藏

分享

04-01 00:24

华东师范大学算法工程师

字节风控一面

1. 树模型 GBDT？2. 介绍Transformer架构3. 交叉注意力机制的QKV分别来自哪4. 正则化的作用5. 为啥使用layer Norm而不使用 Batch Norm6. 位置编码的形式7. 旋转位置编码跟三角函数位置编码的具体区别8. Lookup Embedding9. 三角函数位置编码和可学习的位置编码的优缺点10. DPO跟PPO的区别

查看10道真题和解析

点赞评论收藏

分享

03-24 23:16

浙江大学算法工程师

小米-多模态算法工程师面经（一二面）

当时一二面流程很紧凑，没有分开记录，每面大约50min。总的来说很友好，面试体验也不错，不会的不太逼问，主要根据你的简历和jd进行提问。虽然流程很快但是offer反馈比较慢，应该是同时面多个在排序。后面时间不合适就没去。惯例：互相介绍自我介绍2min，之后面试官介绍自己的团队在做什么深挖项目介绍你做的某课题的pipeline、为什么要这样设计改进（就是问创新点）在xx项目中，如何解决遮挡导致的视角歧义问题？对比过不同3D表征方式对多模态融合的影响吗？若加入雷达点云作为第三模态，会如何调整对齐策略？loss函数介绍+写出基本算法八股看你做过bert，介绍一下bert,transformertra...

查看22道真题和解析

点赞评论收藏

分享

评论

23

85

招聘动态

滴滴

2026届秋招储备实习生招聘

汇丰科技中国

25届校招+26届实习

26届实习生双选会报名开启

26届实习求职交流群

理想汽车

2025春季校园招聘

26届投递链接合集

26届实习软件笔试必刷题单

招商银行数字金融训练营

火热报名中

携程集团

25届校招+26届实习

字节跳动Tik Tok

26届实习招聘

全站热榜

更多

华为实习进展

热聊中

创作者周榜

更多

正在热议

更多

# 春招进度记录 #

59731次浏览 436人参与

# 你知道哪些职场黑话？ #

26785次浏览 205人参与

# Keep实习校招 #

25147次浏览 164人参与

# 实习进度记录 #

63851次浏览 559人参与

# 招银网络求职进展汇总 #

98670次浏览 623人参与

# 第一份工作应该选高薪还是热爱？ #

42680次浏览 398人参与

# 软开人，说说你的烦心事 #

38199次浏览 252人参与

# 风评不好的公司，你会去吗？ #

32026次浏览 149人参与

# 毕业后不工作的日子里我在做什么 #

156083次浏览 1355人参与

# 你想吐槽公司的哪些规定 #

12848次浏览 43人参与

# 我在牛爱网找对象 #

168354次浏览 1249人参与

# 诺瓦星云求职进展汇总 #

189885次浏览 1630人参与

# 如何用一句话描述你的职业 #

17671次浏览 161人参与

# 总结:哪家公司最喜欢泡池子 #

120141次浏览 439人参与

# 一觉醒来，秋招难度下降一万倍…… #

62554次浏览 545人参与

# 投格力的你，拿到offer了吗？ #

74863次浏览 549人参与

# 你的实习什么时候入职 #

161909次浏览 1417人参与

# 生物制药/化工校招攻略 #

39282次浏览 273人参与

# 打工人的工作餐日常 #

32680次浏览 287人参与

# 打工人的精神状态 #

40440次浏览 790人参与

# 参加完秋招的机械人，还参加春招吗？ #

39381次浏览 475人参与

牛客网
牛客企业服务