LAMB优化器介绍 增大bs,学习率如何调整,模型很大,bs不变呢? 你知道的并行切分策略; ZeRO介绍; pp并行下每张卡的显存、计算量一样嘛,激活值呢? DCU和华为AI加速卡区别、生态、通信库; 千卡项目详细介绍一下; 异步保存方面详细介绍; DDP/DeepSpeed中的一些异步保存机制; T5 和 GPT-2的差异; transformer结构; 残差连接的作用; 3D并行相关; 意向地