理想汽车 性能优化工程师
一面:
1. 从Tensor层面讲梯度反传 (detach的底层实现)
2. 动态图、静态图是怎么实现梯度反传的?
3. namespace的变量是如何进行隔离的?
4. 动态库和静态库的各自优势和区别?
5. 分布式训练语句primitive有哪些?data parallel 还是model parallel ?
6. ONNX底层是怎么实现的,为什么不使用ort进行推理?
7. TRT底层是怎么进行优化的?
8. 各种卷积的计算量如何计算?
9. self-attention的 Q、K、V具体是做什么的?概念上解释,比如给你个句子,Q、K、V具体指的是?
10. GEMM对稀释矩阵和稠密矩阵的各种优化?
11. 推理框架对数据搬运、IO的优化?
12. 3D检测你了解吗?
13. DETR是如何去掉后处理的NMS的?(DETR相关)
14. 你了解LLVM吗?
15. 你了解LLM中的KV cache吗?用通俗易懂的或者足够专业的表述描述。
16. C++是如何在其他机器上运行的,自举编译的过程。
17. BN在推理和训练时如何做的?具体的公式?momentum动量你知道吗?他的目的是什么?
18. BN与LN分别作用的是哪里?具体作用是?
19. 你认为未来AI会往什么方向发展?需要什么样的人才?
20. 你训练过Transformer吗?
21. 为什么用relu不用sigmoid?
22. dp与ddp的原理与区别?
23. SGD与AdamW之间的异同?
二面:
1. 如何保证精度稳定性?
2. 浮点运算为什么没有结合律?
3. 给你三维的grid、block、thread 求layout对应的地址。
4. 有哪些情况可能会出现精度丢失?
5. 实现GEMM需要几次for循环,时间复杂度是?
6. 递归实现的GEMM的时间复杂度?
7. 时间复杂度小o的定义?
8. 递归计算时间复杂度的master rule?
时间线:
10.8 一面
10.10 二面
10.11 意向
背景:211本硕 44人厂实习 无论文
1. 从Tensor层面讲梯度反传 (detach的底层实现)
2. 动态图、静态图是怎么实现梯度反传的?
3. namespace的变量是如何进行隔离的?
4. 动态库和静态库的各自优势和区别?
5. 分布式训练语句primitive有哪些?data parallel 还是model parallel ?
6. ONNX底层是怎么实现的,为什么不使用ort进行推理?
7. TRT底层是怎么进行优化的?
8. 各种卷积的计算量如何计算?
9. self-attention的 Q、K、V具体是做什么的?概念上解释,比如给你个句子,Q、K、V具体指的是?
10. GEMM对稀释矩阵和稠密矩阵的各种优化?
11. 推理框架对数据搬运、IO的优化?
12. 3D检测你了解吗?
13. DETR是如何去掉后处理的NMS的?(DETR相关)
14. 你了解LLVM吗?
15. 你了解LLM中的KV cache吗?用通俗易懂的或者足够专业的表述描述。
16. C++是如何在其他机器上运行的,自举编译的过程。
17. BN在推理和训练时如何做的?具体的公式?momentum动量你知道吗?他的目的是什么?
18. BN与LN分别作用的是哪里?具体作用是?
19. 你认为未来AI会往什么方向发展?需要什么样的人才?
20. 你训练过Transformer吗?
21. 为什么用relu不用sigmoid?
22. dp与ddp的原理与区别?
23. SGD与AdamW之间的异同?
二面:
1. 如何保证精度稳定性?
2. 浮点运算为什么没有结合律?
3. 给你三维的grid、block、thread 求layout对应的地址。
4. 有哪些情况可能会出现精度丢失?
5. 实现GEMM需要几次for循环,时间复杂度是?
6. 递归实现的GEMM的时间复杂度?
7. 时间复杂度小o的定义?
8. 递归计算时间复杂度的master rule?
时间线:
10.8 一面
10.10 二面
10.11 意向
背景:211本硕 44人厂实习 无论文
全部评论
感觉很难问的
请问意向会告诉工资嘛?
全是八股攻击啊 一点项目不问吗
咱俩一个岗,我10月之前12面,10月之后三面,现在没动静了,
不过我八股问的比较简单
佬太强了
佬都答出来了吗
相关推荐
查看16道真题和解析
点赞 评论 收藏
分享
点赞 评论 收藏
分享