蚂蚁一面被拷打
1.DeepSpeed Zero(123)
2.流水线并行
3.显存中模型参数,梯度,优化器参数的比例
4.混合精度,在模型训练的过程中混合精度的变化过程
5.流水线并行的时候气泡现象
6.介绍PPO,DPO,GRPO
7.Prompt设计
8.模型重复输出应该如何解决
9.TopK,TopP,Temperature
10.介绍Encode结构
11.有哪些位置编码
12.RoPE如何实现
13.DeepSeek的注意力机制MLA
14.DeepSeek的混合专家模型MoE
15.模型的外推性
16.Layer normalization在前面和在后面的区别和优缺点
17.Batch norm相比Layer norm
18.RMS norm为啥去掉减去均值的步骤也可以有效?
19.word embedding
20.有哪些高效微调的方法
21.了解QWQ模型吗
2.流水线并行
3.显存中模型参数,梯度,优化器参数的比例
4.混合精度,在模型训练的过程中混合精度的变化过程
5.流水线并行的时候气泡现象
6.介绍PPO,DPO,GRPO
7.Prompt设计
8.模型重复输出应该如何解决
9.TopK,TopP,Temperature
10.介绍Encode结构
11.有哪些位置编码
12.RoPE如何实现
13.DeepSeek的注意力机制MLA
14.DeepSeek的混合专家模型MoE
15.模型的外推性
16.Layer normalization在前面和在后面的区别和优缺点
17.Batch norm相比Layer norm
18.RMS norm为啥去掉减去均值的步骤也可以有效?
19.word embedding
20.有哪些高效微调的方法
21.了解QWQ模型吗
全部评论
相关推荐

点赞 评论 收藏
分享
点赞 评论 收藏
分享
点赞 评论 收藏
分享

点赞 评论 收藏
分享