近期面经总结

最近比较忙,面试也没停,不记得太多了,写一些我觉得比较有意思的。来源淘天 度小满 快手 字节等
1. Bert 的结构和预训练任务
2.Bert 的 MLM 任务和 word2vec 的上下文预测中间有啥区别?
3. 知不知道 rag 用的 embedding 和 bert 的区别?
4. rag 检索会有啥优化?
5. lora 微调在显存上主要节省的是哪部分空间?(优化器)
6. 微调数据集怎么做的采样?怎么优化?
7. 强化学习的一些,DPO 的一些优化
8. attention 有哪些优化?(其实不太懂,我就说 GQA MQA)
其他的大部分八股都是很常见的,主要是最近被连续问了两次 embedding 相关,可以看看 bge 的预训练任务

代码
比较常规吧,有意思的是二分类器
输入 100 bs 的 64 维度输入和 Y label,自己实现 sigmoid BCE layerNorm, 先过一个 Linear 再过 layerNorm 再过 Linear 再计算 loss 返回
全部评论
佬,现在都啥进展呀,,感觉现在都在泡池子呀。
2 回复 分享
发布于 2024-09-27 19:13 北京
rag 用的 embedding 和 bert 的区别,就是rag的会多一个检索的微调吧
1 回复 分享
发布于 2024-10-16 18:08 四川
佬,lora 微调在显存上主要节省的是哪部分空间?(优化器),不对呀
点赞 回复 分享
发布于 2024-09-27 21:20 北京
佬 第三题是 bert给的是token level的embedding但是rag用的embedding比如说openai的直接输出整句的么
点赞 回复 分享
发布于 2024-12-23 06:18 美国

相关推荐

西松屋:说明原部门有机会把
点赞 评论 收藏
分享
2024-12-23 06:50
门头沟学院 Java
给点吧求求了:3点发的帖子,害怕😰
点赞 评论 收藏
分享
评论
12
42
分享

创作者周榜

更多
牛客网
牛客企业服务