字节信息中台 NLP 一二面面经
四月中旬之后就没有再投简历,但是到了 5 月反而又有不少被鸽的岗位陆陆续续捞我面试。甚至现在还有不少岗位还在招人,毕竟很多公司尤其是阿里系都是普遍 7 月才去实习的。
5 月拒了个钉钉 offer,夸克反复捞起来面了五次还给我挂了。。百度二面在比较中,字节约了三面,快手一面挂了,其他的都懒得面了。
感触比较深的是我把这两个月的实习经历写上去后,面试明显顺利很多,所以如果有同学面试没那么顺利,也可以选一个先去,积累一些业务相关的经验还是很有必要的。
大概总结一下字节的面试内容,留作日后复习。
1. 自我介绍都有
2. 项目介绍(基本都是针对最近的实习内容)
3. 你认为在上下文越来越长的情况下,Rag 还有必要吗?(和实习相关,有必要,因为目前虽然上下文长,但是对上下文的注意力并不均衡,仍然有很多信息无法被正常利用到,prompt 长度太长影响精度)
4. 那你了解现在都怎么提高上下文长度吗?(相对位置编码介绍一些, 还有一些其他的训练数据之类的)
5. 介绍一下 transformer 结构,它的位置编码是怎么样的?
6. self attention 的 K 和 Q 是干什么用的?(逻辑上来说就是用 Key 和 Query 做配对, 相当于检索,然后计算注意力分数,其实就是检索的配对情况)
7. 那如果让 K 和 Q 变成同一个矩阵,你觉得对模型性能影响大吗?(我认为主要是参数量变小了,会有一些影响,如果参数量不变,影响应该不太大? 面试官说:应该是会断崖下降的,就像你刚刚说的是做配对,没有 KQ 配对注意力计算会变差,不只是参数量的问题)
8. 了解 RLHF 吗?奖励模型的训练任务是什么?(不了解 RLHF 没接触过。。。)
9. 为什么现在都是 only decoder 结构?
10. 模型的预训练了解吗?
还有一些和实习相关的问题,不太记得了, 集中在数据生产和 rag 策略的一些内容。
代码题(两面 4 道)
1. 三数之和离 target 最近的结果
2. 一个双指针滑动窗口的 mid 题 忘记了
3. 二分法实现 sqrt 精度 0.0001
4. 判断字符串是否是旋转得到的(就是字符串尾部整体移动到头部,判断两个字符串是不是可以自动得到)
字节整体还是重代码题,八股难度中规中矩,很久没准备了也不算难,这种应用部门也很看实际的项目
5 月拒了个钉钉 offer,夸克反复捞起来面了五次还给我挂了。。百度二面在比较中,字节约了三面,快手一面挂了,其他的都懒得面了。
感触比较深的是我把这两个月的实习经历写上去后,面试明显顺利很多,所以如果有同学面试没那么顺利,也可以选一个先去,积累一些业务相关的经验还是很有必要的。
大概总结一下字节的面试内容,留作日后复习。
1. 自我介绍都有
2. 项目介绍(基本都是针对最近的实习内容)
3. 你认为在上下文越来越长的情况下,Rag 还有必要吗?(和实习相关,有必要,因为目前虽然上下文长,但是对上下文的注意力并不均衡,仍然有很多信息无法被正常利用到,prompt 长度太长影响精度)
4. 那你了解现在都怎么提高上下文长度吗?(相对位置编码介绍一些, 还有一些其他的训练数据之类的)
5. 介绍一下 transformer 结构,它的位置编码是怎么样的?
6. self attention 的 K 和 Q 是干什么用的?(逻辑上来说就是用 Key 和 Query 做配对, 相当于检索,然后计算注意力分数,其实就是检索的配对情况)
7. 那如果让 K 和 Q 变成同一个矩阵,你觉得对模型性能影响大吗?(我认为主要是参数量变小了,会有一些影响,如果参数量不变,影响应该不太大? 面试官说:应该是会断崖下降的,就像你刚刚说的是做配对,没有 KQ 配对注意力计算会变差,不只是参数量的问题)
8. 了解 RLHF 吗?奖励模型的训练任务是什么?(不了解 RLHF 没接触过。。。)
9. 为什么现在都是 only decoder 结构?
10. 模型的预训练了解吗?
还有一些和实习相关的问题,不太记得了, 集中在数据生产和 rag 策略的一些内容。
代码题(两面 4 道)
1. 三数之和离 target 最近的结果
2. 一个双指针滑动窗口的 mid 题 忘记了
3. 二分法实现 sqrt 精度 0.0001
4. 判断字符串是否是旋转得到的(就是字符串尾部整体移动到头部,判断两个字符串是不是可以自动得到)
字节整体还是重代码题,八股难度中规中矩,很久没准备了也不算难,这种应用部门也很看实际的项目
全部评论
大胆夸克敢挂我pku✌🏻
相关推荐
查看6道真题和解析
点赞 评论 收藏
分享