BigAI 一面
北京通用人工智能研究院
两个面试官一男一女
1. 自我介绍
2.项目
你决定你这些数据处理的工作,心得是什么?
为什么你会用 Qwen2 而不是其他模型?
如何评测你所谓的对话风格?目前有什么优化点?
对话记忆这块你是怎么做的?具体讲一下。(中间讲到 mem0,还一起吐槽了一下这个项目不值得那么多🌟)
手写一下 DPO 的 loss(中间还写错了一个 sigmoid 写成了 softmax)
为什么公式里要 ref 模型?
DPO 被称为数据分布偏移敏感,你知道是什么原因吗?(草,啥玩意)
有了解过传统的 RL 那块吗?(不了解)
有用过推理加速啥的吗?讲一下
代码题
1. MultiheadAtten
2. BPE 分词(这个代码是真折磨啊,没写过主要是,写了个很庞大丑陋的代码, 最后有几个 bug 所以没跑通,反正就是面试官两个人也反复跟我拉扯代码细节,就是硬要我跑一下。。。后面还是遗留了一个 sort 字典的 bug 没跑通,就发了份我的代码,面试官说线下他在慢慢看)
BPE 这题拉扯了 30 分钟,他们真的好认真在面试。
两个面试官一男一女
1. 自我介绍
2.项目
你决定你这些数据处理的工作,心得是什么?
为什么你会用 Qwen2 而不是其他模型?
如何评测你所谓的对话风格?目前有什么优化点?
对话记忆这块你是怎么做的?具体讲一下。(中间讲到 mem0,还一起吐槽了一下这个项目不值得那么多🌟)
手写一下 DPO 的 loss(中间还写错了一个 sigmoid 写成了 softmax)
为什么公式里要 ref 模型?
DPO 被称为数据分布偏移敏感,你知道是什么原因吗?(草,啥玩意)
有了解过传统的 RL 那块吗?(不了解)
有用过推理加速啥的吗?讲一下
代码题
1. MultiheadAtten
2. BPE 分词(这个代码是真折磨啊,没写过主要是,写了个很庞大丑陋的代码, 最后有几个 bug 所以没跑通,反正就是面试官两个人也反复跟我拉扯代码细节,就是硬要我跑一下。。。后面还是遗留了一个 sort 字典的 bug 没跑通,就发了份我的代码,面试官说线下他在慢慢看)
BPE 这题拉扯了 30 分钟,他们真的好认真在面试。
全部评论
佬面了多久,我被拷打了一个半小时😅
请问,你的北京通用人工智能研究院的面试是邮件通知还是电话通知?
佬这个所怎么样啊
哪个部门啊~
相关推荐
10-31 21:28
University of Miami Java 点赞 评论 收藏
分享