近期面经总结
最近比较忙,面试也没停,不记得太多了,写一些我觉得比较有意思的。来源淘天 度小满 快手 字节等
1. Bert 的结构和预训练任务
2.Bert 的 MLM 任务和 word2vec 的上下文预测中间有啥区别?
3. 知不知道 rag 用的 embedding 和 bert 的区别?
4. rag 检索会有啥优化?
5. lora 微调在显存上主要节省的是哪部分空间?(优化器)
6. 微调数据集怎么做的采样?怎么优化?
7. 强化学习的一些,DPO 的一些优化
8. attention 有哪些优化?(其实不太懂,我就说 GQA MQA)
其他的大部分八股都是很常见的,主要是最近被连续问了两次 embedding 相关,可以看看 bge 的预训练任务
代码
比较常规吧,有意思的是二分类器
输入 100 bs 的 64 维度输入和 Y label,自己实现 sigmoid BCE layerNorm, 先过一个 Linear 再过 layerNorm 再过 Linear 再计算 loss 返回
1. Bert 的结构和预训练任务
2.Bert 的 MLM 任务和 word2vec 的上下文预测中间有啥区别?
3. 知不知道 rag 用的 embedding 和 bert 的区别?
4. rag 检索会有啥优化?
5. lora 微调在显存上主要节省的是哪部分空间?(优化器)
6. 微调数据集怎么做的采样?怎么优化?
7. 强化学习的一些,DPO 的一些优化
8. attention 有哪些优化?(其实不太懂,我就说 GQA MQA)
其他的大部分八股都是很常见的,主要是最近被连续问了两次 embedding 相关,可以看看 bge 的预训练任务
代码
比较常规吧,有意思的是二分类器
输入 100 bs 的 64 维度输入和 Y label,自己实现 sigmoid BCE layerNorm, 先过一个 Linear 再过 layerNorm 再过 Linear 再计算 loss 返回
全部评论
佬,现在都啥进展呀,,感觉现在都在泡池子呀。![](https://uploadfiles.nowcoder.com/images/20220815/318889480_1660553763930/8B36D115CE5468E380708713273FEF43)
rag 用的 embedding 和 bert 的区别,就是rag的会多一个检索的微调吧
佬,lora 微调在显存上主要节省的是哪部分空间?(优化器),不对呀
佬 第三题是 bert给的是token level的embedding但是rag用的embedding比如说openai的直接输出整句的么
相关推荐
![](https://static.nowcoder.com/fe/file/oss/icon_job.png)
点赞 评论 收藏
分享