字节风控一面

1. 树模型 GBDT?
2. 介绍Transformer架构
3. 交叉注意力机制的QKV分别来自哪
4. 正则化的作用
5. 为啥使用layer Norm而不使用 Batch Norm
6. 位置编码的形式
7. 旋转位置编码跟三角函数位置编码的具体区别
8. Lookup Embedding
9. 三角函数位置编码和可学习的位置编码的优缺点
10. DPO跟PPO的区别
全部评论

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客企业服务