1、自我介绍2、transformer结构3、mha计算流程4、mha中为啥要除去d开方5、残差层是干啥的6、为啥会梯度消失7、ring allreduce流程8、zero三个阶段通信量9、dapple、pipedream原理10、你的论文干了啥11、c++ 14用过啥特性12、c++传参的方式有哪些13、python中传参类似c++中哪个14、c++、python选哪个15、反问感觉都是比较基础的问题(但楼主忘了一些),面试官挺有实力,问题都是一环扣一环,总时长55min吧,讲的口干舌燥