高德地图 算法 二面面经
一小时,拷打transformer
你怎么理解AIGC?
讲一下transformer
transformer和cnn的区别
transformer中embeding怎么做的
位置编码你了解哪些形式
三角函数位置编码有哪些好处,旋转位置编码呢
position embeding 和input怎么融合的
多头注意力相比单头优势,encode的时候多头会做融合吗?还是什么时候做融合?
拆成多少个头有什么规律吗?
之后的层归一化怎么实现的
前馈神经网络有几层,为什么要用mlp这种结构?
像gpt和图像生成,大都是decoder-only架构,为什么
xl参数量多少
相比于传统的模型和思路方法,为什么能达到现在这个效果,以及你怎么看待它未来的发展。
多模态模型了解哪些?
无手撕
#阿里##算法##面经##如何判断面试是否凉了##秋招#
你怎么理解AIGC?
讲一下transformer
transformer和cnn的区别
transformer中embeding怎么做的
位置编码你了解哪些形式
三角函数位置编码有哪些好处,旋转位置编码呢
position embeding 和input怎么融合的
多头注意力相比单头优势,encode的时候多头会做融合吗?还是什么时候做融合?
拆成多少个头有什么规律吗?
之后的层归一化怎么实现的
前馈神经网络有几层,为什么要用mlp这种结构?
像gpt和图像生成,大都是decoder-only架构,为什么
xl参数量多少
相比于传统的模型和思路方法,为什么能达到现在这个效果,以及你怎么看待它未来的发展。
多模态模型了解哪些?
无手撕
#阿里##算法##面经##如何判断面试是否凉了##秋招#
全部评论
根本答不出来
还挺,朴实的
太细了
佬有论文吗?
佬,XL是哪个啊?
attention 拆成多少个头有什么规律吗? 请问这个有说法吗?不会
佬蹲蹲后续
大佬面的哪个岗位or部门哇~
相关推荐
查看12道真题和解析
点赞 评论 收藏
分享
11-14 15:06
东北大学 Java 点赞 评论 收藏
分享