5.9一面:1. 讲项目2. 推理优化技术(有损, 无损)3. 有哪些性能评价指标4. 场景题, 设计top指令, 资源的管理层面有哪些需要考虑的(WA这些, 我不会)5. CPU管理哪些资源(物理资源, 资源对象实例角度)5.10 二面:1. 讲项目2. 场景, 假如只有一个模型,如何在硬件设备上高效部署(模型并行, 量化, 调度, 当GPU显存不够但是只有一个GPU, 又必须要做推理服务, 考虑将模型按层卸载到CPU上, 每次计算再传到GPU上, 针对这个方案详细问了这个延迟大概是什么量级的, 带宽指标是多少)3. 问了CUDA优化方法