一面:1. 从Tensor层面讲梯度反传 (detach的底层实现)2. 动态图、静态图是怎么实现梯度反传的?3. namespace的变量是如何进行隔离的?4. 动态库和静态库的各自优势和区别?5. 分布式训练语句primitive有哪些?data parallel 还是model parallel ?6. ONNX底层是怎么实现的,为什么不使用ort进行推理?7. TRT底层是怎么进行优化的?8. 各种卷积的计算量如何计算?9. self-attention的 Q、K、V具体是做什么的?概念上解释,比如给你个句子,Q、K、V具体指的是?10. GEMM对稀释矩阵和稠密矩阵的各种优化?11. 推理框架对数据搬运、IO的优化?12. 3D检测你了解吗?13. DETR是如何去掉后处理的NMS的?(DETR相关)14. 你了解LLVM吗?15. 你了解LLM中的KV cache吗?用通俗易懂的或者足够专业的表述描述。16. C++是如何在其他机器上运行的,自举编译的过程。17. BN在推理和训练时如何做的?具体的公式?momentum动量你知道吗?他的目的是什么?18. BN与LN分别作用的是哪里?具体作用是?19. 你认为未来AI会往什么方向发展?需要什么样的人才?20. 你训练过Transformer吗?21. 为什么用relu不用sigmoid?22. dp与ddp的原理与区别?23. SGD与AdamW之间的异同?二面:1. 如何保证精度稳定性?2. 浮点运算为什么没有结合律?3. 给你三维的grid、block、thread 求layout对应的地址。4. 有哪些情况可能会出现精度丢失?5. 实现GEMM需要几次for循环,时间复杂度是?6. 递归实现的GEMM的时间复杂度?7. 时间复杂度小o的定义?8. 递归计算时间复杂度的master rule?时间线:10.8 一面10.10 二面10.11 意向背景:211本硕 44人厂实习 无论文