中国移动研究院,AI并行训练面经

  • LAMB优化器介绍
  • 增大bs,学习率如何调整,模型很大,bs不变呢?
  • 你知道的并行切分策略;
  • ZeRO介绍;
  • pp并行下每张卡的显存、计算量一样嘛,激活值呢?
  • DCU和华为AI加速卡区别、生态、通信库;
  • 千卡项目详细介绍一下;
  • 异步保存方面详细介绍;
  • DDP/DeepSpeed中的一些异步保存机制;
  • T5 和 GPT-2的差异;
  • transformer结构;
  • 残差连接的作用;
  • 3D并行相关;
  • 意向地
全部评论
友友面的是西安吗
点赞 回复 分享
发布于 昨天 11:43 陕西

相关推荐

1 1 评论
分享
牛客网
牛客企业服务