字节应用一面
应该是某部门里的算法团队,有大模型相关的
1.自我介绍
2.项目详细拷打
3.长记忆这块除了 rag,你们有试过长文本模型吗?为什么不好?你们使用的扩充到 32K 的模型还是预训练本身就 32K 的模型?
4.你们记忆检索怎么检索的?有做什么优化吗?
5. 有没有了解过 loss in middle?(应该是这个?应该是说中间的注意下降吧?不是很懂这个原理)
6.DPO PPO 能讲一下它们的区别吗?有没有了解过更前沿的 RLHF?
7.DPO 里你刚刚说的 reject chosen 的 loss 里的概率是怎么计算的知道吗?
8. 简单讲讲 transformer bert 一类的模型的结构吧。
9.attention 公式是什么?为什么要除以根号 dk?
10. 你们模型效果怎么评估?上线有具体准确率之类的要求吗?
11. 安全对齐这块,你们有做样本分布统计吗? 就是具体涉及到哪些类?
代码题最大乘积连续子数组
1.自我介绍
2.项目详细拷打
3.长记忆这块除了 rag,你们有试过长文本模型吗?为什么不好?你们使用的扩充到 32K 的模型还是预训练本身就 32K 的模型?
4.你们记忆检索怎么检索的?有做什么优化吗?
5. 有没有了解过 loss in middle?(应该是这个?应该是说中间的注意下降吧?不是很懂这个原理)
6.DPO PPO 能讲一下它们的区别吗?有没有了解过更前沿的 RLHF?
7.DPO 里你刚刚说的 reject chosen 的 loss 里的概率是怎么计算的知道吗?
8. 简单讲讲 transformer bert 一类的模型的结构吧。
9.attention 公式是什么?为什么要除以根号 dk?
10. 你们模型效果怎么评估?上线有具体准确率之类的要求吗?
11. 安全对齐这块,你们有做样本分布统计吗? 就是具体涉及到哪些类?
代码题最大乘积连续子数组
全部评论
蹲一下是不是kpi 我也被捞起来了
今天刚通知我这个部门的三面过了 uu反问有仔细问相关业务吗
是被捞的还是主动投的呀 等了几天被捞呢
相关推荐