快 star(多模态理解)一面
不得不说快手的面试体验是真好,不会让我很压力。
大模型一面挂了,没想到被这个捞了。面试官不会问我没接触的,还是很好的。
1. 自我介绍
2.实习简单介绍了一下
他们是做安全的,就先问了很多安全的知识
3.实习中,安全对齐现在是怎么做的
4. 安全数据你们是怎么构造的
5. 开放场景题(现在快手有一些视频图片文本等帖子,底下评论很多可能设计 sq zz 等安全问题, 如果是你,你会怎么去设计来解决这个安全问题?)(我: 情感分析 实体信息抽取 主题分类 模型微调 xxxx 随便大杂烩)
6. 讲到了一下 DPO,就问 PPO 和 DPO 有什么区别?(奖励模型优化了)
7. 你觉得 DPO 训练,可能会出现什么问题?
问了问我做没做过 CV,没有。 后面问集中在transformer,估计是他 CV 做的多。
8. transformer 的结构整体介绍一下
7. 位置编码介绍一下?为什么 ROPE 等相对位置编码会有比较好的外推性?(瞎讲)
8. 讲一下 BatchNorm 和 LayerNorm。为什么 transformer 是 LayerNorm?
9. 是 Post 还是 PreNorm? 这两个有什么优缺点?(我说反了。。。Pre 更训练稳定,Post 更性能好。。面试官还问我,是哪个更稳定?我还搞反了。。。)
10. 两个 Norm 都需要 warm up 吗?(第一次被问这个,之前完全没看过,如实说了)
11. 后面就问了 attention K Q V 怎么来的? decoder 第二个的 K Q V 来源
12. 训练和推理的时候的不同,会不会有影响?(就是如果推理预测的第一个 token 不一样,会不会错误累计?)
后面还问了一些啥忘记了,
代码题路径之和 3
面了一个半小时,代码题搞得稍微久了点, 提问一个小时。
大模型一面挂了,没想到被这个捞了。面试官不会问我没接触的,还是很好的。
1. 自我介绍
2.实习简单介绍了一下
他们是做安全的,就先问了很多安全的知识
3.实习中,安全对齐现在是怎么做的
4. 安全数据你们是怎么构造的
5. 开放场景题(现在快手有一些视频图片文本等帖子,底下评论很多可能设计 sq zz 等安全问题, 如果是你,你会怎么去设计来解决这个安全问题?)(我: 情感分析 实体信息抽取 主题分类 模型微调 xxxx 随便大杂烩)
6. 讲到了一下 DPO,就问 PPO 和 DPO 有什么区别?(奖励模型优化了)
7. 你觉得 DPO 训练,可能会出现什么问题?
问了问我做没做过 CV,没有。 后面问集中在transformer,估计是他 CV 做的多。
8. transformer 的结构整体介绍一下
7. 位置编码介绍一下?为什么 ROPE 等相对位置编码会有比较好的外推性?(瞎讲)
8. 讲一下 BatchNorm 和 LayerNorm。为什么 transformer 是 LayerNorm?
9. 是 Post 还是 PreNorm? 这两个有什么优缺点?(我说反了。。。Pre 更训练稳定,Post 更性能好。。面试官还问我,是哪个更稳定?我还搞反了。。。)
10. 两个 Norm 都需要 warm up 吗?(第一次被问这个,之前完全没看过,如实说了)
11. 后面就问了 attention K Q V 怎么来的? decoder 第二个的 K Q V 来源
12. 训练和推理的时候的不同,会不会有影响?(就是如果推理预测的第一个 token 不一样,会不会错误累计?)
后面还问了一些啥忘记了,
代码题路径之和 3
面了一个半小时,代码题搞得稍微久了点, 提问一个小时。
全部评论
绝对位置编码长度外推会出现训练没见过的位置编码,相对编码很关注相对距离,长度外推的时候,推出去的token和length内的token还是有相对位置见过的?(感觉好像也没细想过这个问题,一般只知道绝对位置不好外推😂
postnorm效果好,但是难训练,需要warmup
问这么多基础是因为经历不match么
我超我大模型一面也挂了,不知道会不会也被捞
明天面抖音的多模态理解,不想做安全啊实在是
笑死 我也被问到了一样的场景题
相关推荐
11-13 20:45
哈尔滨工业大学 算法工程师 点赞 评论 收藏
分享