科大讯飞飞星一面
1、自我介绍
2、transformer结构
3、mha计算流程
4、mha中为啥要除去d开方
5、残差层是干啥的
6、为啥会梯度消失
7、ring allreduce流程
8、zero三个阶段通信量
9、dapple、pipedream原理
10、你的论文干了啥
11、c++ 14用过啥特性
12、c++传参的方式有哪些
13、python中传参类似c++中哪个
14、c++、python选哪个
15、反问
感觉都是比较基础的问题(但楼主忘了一些),面试官挺有实力,问题都是一环扣一环,总时长55min吧,讲的口干舌燥
2、transformer结构
3、mha计算流程
4、mha中为啥要除去d开方
5、残差层是干啥的
6、为啥会梯度消失
7、ring allreduce流程
8、zero三个阶段通信量
9、dapple、pipedream原理
10、你的论文干了啥
11、c++ 14用过啥特性
12、c++传参的方式有哪些
13、python中传参类似c++中哪个
14、c++、python选哪个
15、反问
感觉都是比较基础的问题(但楼主忘了一些),面试官挺有实力,问题都是一环扣一环,总时长55min吧,讲的口干舌燥
全部评论
为啥还在面飞星啊,哪个岗啊佬
华为校招 大模型赛道 名额很多 很缺人。两天处理流程 不泡池子 可以私聊我哈
相关推荐
点赞 评论 收藏
分享