高德一面
1h30min
八股:
1. lora原理,lora初始化,AB可以全零或者全高斯吗,通常在什么参数矩阵上加lora,有什么超参数,怎么知道哪些超参数组合效果最好
2. dpo/ppo/spin原理,loss,过程中有几个模型
3. dpo正负样本之间只有少量差异,这个时候效果不好,为什么,怎么解决
4. 训练的pipeline,deepspeed zero123原理和用了哪个,为什么用这个
5. 量化框架知道哪些?vllm原理
6. 大规模数据,rag怎么快速检索召回(不知道,面试官说什么稀疏index什么什么的,没听过也没记住)
7. 对比学习原理,怎么做的,哪些做负例哪些做正例,loss,超参数,最终是什么参与loss计算
主要拷打实习:
1. 实习rag中的embedding模型用的哪个,为什么用,为什么不用bge
2. 知识库是单纯召回,还是有精排,策略,链路什么样,都用了哪些模型
3. 模型部署上线经手了吗,参与度
4. dpo数据怎么来的,自己改还是模型生成,效果好吗,有探索过最新的对齐方法吗
5. 最近读过的论文,实习有用比较新的论文的方案吗,照比现在方法改进点在哪
6. 实习公司数据库用的什么
手撕:
编辑距离,听说过没做过,没撕出来
换了道easy,链表有无环,感谢面试官!
八股:
1. lora原理,lora初始化,AB可以全零或者全高斯吗,通常在什么参数矩阵上加lora,有什么超参数,怎么知道哪些超参数组合效果最好
2. dpo/ppo/spin原理,loss,过程中有几个模型
3. dpo正负样本之间只有少量差异,这个时候效果不好,为什么,怎么解决
4. 训练的pipeline,deepspeed zero123原理和用了哪个,为什么用这个
5. 量化框架知道哪些?vllm原理
6. 大规模数据,rag怎么快速检索召回(不知道,面试官说什么稀疏index什么什么的,没听过也没记住)
7. 对比学习原理,怎么做的,哪些做负例哪些做正例,loss,超参数,最终是什么参与loss计算
主要拷打实习:
1. 实习rag中的embedding模型用的哪个,为什么用,为什么不用bge
2. 知识库是单纯召回,还是有精排,策略,链路什么样,都用了哪些模型
3. 模型部署上线经手了吗,参与度
4. dpo数据怎么来的,自己改还是模型生成,效果好吗,有探索过最新的对齐方法吗
5. 最近读过的论文,实习有用比较新的论文的方案吗,照比现在方法改进点在哪
6. 实习公司数据库用的什么
手撕:
编辑距离,听说过没做过,没撕出来
换了道easy,链表有无环,感谢面试官!
全部评论
是深度学习算法吗,感觉是一个面试官😂
同一个面试官,问的问题都一样哈哈,手撕也一样
相关推荐
查看12道真题和解析
点赞 评论 收藏
分享
10-25 12:38
门头沟学院 嵌入式软件开发 点赞 评论 收藏
分享