1. 当训练推理卡规模倍增的情况下,最容易产生瓶颈的位置可能是什么 a. 请展开分析产生的原因 b. 对于此类问题,有什么优化或者缓解方案2. 请解释并介绍一下 Roofline 模型,如何判断性能已经达到计算瓶颈3. 在 C++中,若数组越界写使得其他的数据结构被写坏了,工程现场保留了 coredump 文件,你应该如何排查这个错误4. 请介绍一下你理解的 Flash-attention5. 当进行 GEMM 计算时,一定可以保证它是一个计算瓶颈算子吗,如果要你去优化它,你的思路是什么。6. 对于性能优化的定位和瓶颈的检测,你有什么方法吗7. 手撕:手写包含 GQA 的 attention 模块实现#面经##infra#