大模型基础架构岗面经(二)

  1. 是否了解萃取技术,偏特化全特化(为什么乱入了模版编程)
  2. 模型的并行策略有什么,策略的选择是如何确定的,如何排序并行策略组
  • 你对于流水线并行的理解是什么
  • 对于数据并行的理解
  1. 解决显存不够的方法有哪些,对显存优化的选择有什么看法
  2. 什么是 scale law
  3. deepspeed的特点是什么?各个zero stage都有什么用?
  4. 对于长文本的训练,有什么解决优化方案
  5. 请介绍一下 transformer 的结构
  6. 没有手撕,美滋滋
全部评论
m
1 回复 分享
发布于 08-23 23:57 黑龙江
哪家公司呀
点赞 回复 分享
发布于 08-29 15:58 北京

相关推荐

评论
1
14
分享
牛客网
牛客企业服务