字节风控一面
1. 树模型 GBDT?
2. 介绍Transformer架构
3. 交叉注意力机制的QKV分别来自哪
4. 正则化的作用
5. 为啥使用layer Norm而不使用 Batch Norm
6. 位置编码的形式
7. 旋转位置编码跟三角函数位置编码的具体区别
8. Lookup Embedding
9. 三角函数位置编码和可学习的位置编码的优缺点
10. DPO跟PPO的区别
2. 介绍Transformer架构
3. 交叉注意力机制的QKV分别来自哪
4. 正则化的作用
5. 为啥使用layer Norm而不使用 Batch Norm
6. 位置编码的形式
7. 旋转位置编码跟三角函数位置编码的具体区别
8. Lookup Embedding
9. 三角函数位置编码和可学习的位置编码的优缺点
10. DPO跟PPO的区别
全部评论
相关推荐
很奥的前端仔:如果你接了offer 临时又说不去 hr确实要多做一些工作。 当然如果是接offer之前当我没说
点赞 评论 收藏
分享
查看1道真题和解析