字节风控一面
1. 树模型 GBDT?
2. 介绍Transformer架构
3. 交叉注意力机制的QKV分别来自哪
4. 正则化的作用
5. 为啥使用layer Norm而不使用 Batch Norm
6. 位置编码的形式
7. 旋转位置编码跟三角函数位置编码的具体区别
8. Lookup Embedding
9. 三角函数位置编码和可学习的位置编码的优缺点
10. DPO跟PPO的区别
2. 介绍Transformer架构
3. 交叉注意力机制的QKV分别来自哪
4. 正则化的作用
5. 为啥使用layer Norm而不使用 Batch Norm
6. 位置编码的形式
7. 旋转位置编码跟三角函数位置编码的具体区别
8. Lookup Embedding
9. 三角函数位置编码和可学习的位置编码的优缺点
10. DPO跟PPO的区别
全部评论
相关推荐
点赞 评论 收藏
分享


点赞 评论 收藏
分享
点赞 评论 收藏
分享