你了解 Mixtral 8*7B 模型训练的优化组选择吗?机内通信首选的策略组应该是什么,选择的原因是什么?shared_memory 一定重要吗,cuda 中的 memory 种类和使用方式介绍一下cuda launch 的过程,CPU 端怎么知道命令完成的GPU 之间的通信是如何完成的cuda 的计算和通信指令是如何发出的CP 的并行方式和并行思想,ring 和 ulysses 的技术介绍介绍一下在大模型训练/推理过程中常见的通信原语请解释并介绍一下 Roofline 模型,是怎么运用到实际场景中的如果给你一些 CPU,GPU 的型号,你如何去对他们进行比较合适的组装,以及机内机间的带宽你...