字节 筋斗云
RAG方向
面试官水平非常高,哪怕是在面试感觉都学到了很多东西
问题:
1. 朴素贝叶斯理论
2. 后验概率和条件概率的差别?关系?
后验概率:由果求因
条件概率:由因求果
贝叶斯公式:
B是因、A是果
其中:$P(B|A)$为后验概率,$P(A)、P(B)$为先验概率,$P(A|B)$为条件概率
即贝叶斯公式可以通过条件概率和先验概率求出后验概率
3. 贝叶斯如何应用在文本分类?
这里其实做了两个假设:
1)文本属于哪个类别一定程度上取决于包含了哪些词
2)词的独立性假设
4. multi-head和单头head的计算复杂度有没有差别?
应该没有区别,multi-head在并行情况下能够加速,但总的复杂度没变
5. 文本不等长的情况,怎么进行处理?padding?注意力计算加mask?(padding对应列进行mask)
在padding对应的列加上mask。
6. 召回排序了解哪些?
7. 对比学习?
8. 温度因子的作用?
9. 预训练有几种方式?(MLM,NSP)
10. Albert和bert的区别?
11. RAG中的embedding具体是怎么做的?
12. 算法:动态规划
面试官水平非常高,哪怕是在面试感觉都学到了很多东西
问题:
1. 朴素贝叶斯理论
2. 后验概率和条件概率的差别?关系?
后验概率:由果求因
条件概率:由因求果
贝叶斯公式:
B是因、A是果
其中:$P(B|A)$为后验概率,$P(A)、P(B)$为先验概率,$P(A|B)$为条件概率
即贝叶斯公式可以通过条件概率和先验概率求出后验概率
3. 贝叶斯如何应用在文本分类?
这里其实做了两个假设:
1)文本属于哪个类别一定程度上取决于包含了哪些词
2)词的独立性假设
4. multi-head和单头head的计算复杂度有没有差别?
应该没有区别,multi-head在并行情况下能够加速,但总的复杂度没变
5. 文本不等长的情况,怎么进行处理?padding?注意力计算加mask?(padding对应列进行mask)
在padding对应的列加上mask。
6. 召回排序了解哪些?
7. 对比学习?
8. 温度因子的作用?
9. 预训练有几种方式?(MLM,NSP)
10. Albert和bert的区别?
11. RAG中的embedding具体是怎么做的?
12. 算法:动态规划
全部评论
相关推荐