高德地图 算法 二面面经

一小时,拷打transformer
你怎么理解AIGC?
讲一下transformer
transformer和cnn的区别
transformer中embeding怎么做的
位置编码你了解哪些形式
三角函数位置编码有哪些好处,旋转位置编码呢
position embeding 和input怎么融合的
多头注意力相比单头优势,encode的时候多头会做融合吗?还是什么时候做融合?
拆成多少个头有什么规律吗?
之后的层归一化怎么实现的
前馈神经网络有几层,为什么要用mlp这种结构?
像gpt和图像生成,大都是decoder-only架构,为什么
xl参数量多少
相比于传统的模型和思路方法,为什么能达到现在这个效果,以及你怎么看待它未来的发展。
多模态模型了解哪些?
无手撕
#阿里##算法##面经##如何判断面试是否凉了##秋招#
全部评论
根本答不出来
1 回复 分享
发布于 09-01 03:15 浙江
还挺,朴实的
1 回复 分享
发布于 09-03 20:41 天津
太细了
点赞 回复 分享
发布于 09-01 10:46 北京
佬有论文吗?
点赞 回复 分享
发布于 09-01 11:02 北京
佬,XL是哪个啊?
点赞 回复 分享
发布于 09-01 17:54 陕西
attention 拆成多少个头有什么规律吗? 请问这个有说法吗?不会
点赞 回复 分享
发布于 09-23 13:23 美国
佬蹲蹲后续
点赞 回复 分享
发布于 09-27 17:23 上海
大佬面的哪个岗位or部门哇~
点赞 回复 分享
发布于 10-20 02:45 北京

相关推荐

19 86 评论
分享
牛客网
牛客企业服务