美团 大模型后台开发凉经

  • pytorch中的DataLoader是多线程还是多进程;
  • 如何查看进程;
  • GPT-2和T5-small大小
  • cpp中的数组实际存储是连续的嘛;
  • 是虚拟内存中连续还是物理内存连续;
  • 平时cpp开发在32位环境还是64位环境;
  • 32位环境还是64位环境怎么看;
  • 32位和64位区别;
  • 1B参数模型ZeRO2内存减少量;
  • 1B参数模型显存占用计算;
  • ZeRO2相比数据并行为什么没有增加通信容量;
  • 分布式训练通信发生在什么地方;
  • 通信容量是多少;
  • 一个卡需要通信参数量为B,AllReduce通信量计算;
  • 手撕原创算法题;

感觉方向不是很匹配,不知道为什么这么多开发的问题,分布式训练推理优化、大模型反而问的很少

全部评论
感谢分享
点赞 回复 分享
发布于 10-12 13:27 浙江
你好这个算是算法还是开发呀
点赞 回复 分享
发布于 11-01 17:48 北京
学长,请问大模型开发的HC是不是要相对算法多一些呀
点赞 回复 分享
发布于 11-06 14:17 香港

相关推荐

4 10 评论
分享
牛客网
牛客企业服务