淘天 搜索算法 9.5 二面
1.code
有序数组某个数字出现的个数,二分,秒了
编辑距离,dp秒了,但是面试官要求不需要最优解,让写一个暴力解,且是迭代版本,最终写出了个bfs版本
2.数学
如何理解梯度
一个变量在沿着梯度方向增加很小量,y怎么变(求大佬指出)
一个函数在极小值一阶梯度和二阶梯度的特点是什么
3.八股
知道哪些机器学习常用优化器
adam和sgd的优缺点,为什么adam刚开始比sgd快,那如果我把sgd的lr调大,会比adam快吗
激活函数有哪些,relu和sigmoid优缺点
transformer的注意力为什么要多个头,多个头为什么能注意到不同信息,为什么一个头不能呢,反正最终输出都是相同维度,难道一起就学不到分开的东西吗(求大佬指出)
多头和单头计算量和参数量有什么变化(求大佬指出)
4.项目
ZILN是什么
怎么把连续值变道0-1之间,那1出会不会累计一些样本,这些样本怎么处理
没反问,面试官迟到了10min,问完项目就说今天先到这里吧,就没了
这难度有点高,被疯狂上强度,感觉不走寻常路,希望二面过吧
有序数组某个数字出现的个数,二分,秒了
编辑距离,dp秒了,但是面试官要求不需要最优解,让写一个暴力解,且是迭代版本,最终写出了个bfs版本
2.数学
如何理解梯度
一个变量在沿着梯度方向增加很小量,y怎么变(求大佬指出)
一个函数在极小值一阶梯度和二阶梯度的特点是什么
3.八股
知道哪些机器学习常用优化器
adam和sgd的优缺点,为什么adam刚开始比sgd快,那如果我把sgd的lr调大,会比adam快吗
激活函数有哪些,relu和sigmoid优缺点
transformer的注意力为什么要多个头,多个头为什么能注意到不同信息,为什么一个头不能呢,反正最终输出都是相同维度,难道一起就学不到分开的东西吗(求大佬指出)
多头和单头计算量和参数量有什么变化(求大佬指出)
4.项目
ZILN是什么
怎么把连续值变道0-1之间,那1出会不会累计一些样本,这些样本怎么处理
没反问,面试官迟到了10min,问完项目就说今天先到这里吧,就没了
这难度有点高,被疯狂上强度,感觉不走寻常路,希望二面过吧
全部评论
多头会多一个输出的线性层,单头复杂度是n^2*d,多头是n^2*d+n*d^2
这也太难了
这是纯八股呀
问的八股好深
uu 想问一下是淘天的哪个部门啊
y=x+(dy/dx)△x;多头注意力里XQ,XK,XV参数是要学的,比如8个头那就学8个不同的线性变换矩阵最后再拼一块,多个矩阵肯定蕴含不同的特征,好比CNN映射的多通道feature map最后拼在一起
相关推荐
Java抽象带篮子:什么一神一魔,小神直接黑化吧
点赞 评论 收藏
分享
2024-12-25 17:50
浙江大学 产品专员 偷偷藏不住钱:我知道你很幸福,但是谁问你了?😡我的意思是,谁在意?我告诉你,根本没人问你,在我们之中0人问了你,我把所有问你的人都请来 party 了,到场人数是0个人,誰问你了?WHO ASKED?谁问汝矣?誰があなたに聞きましたか?누가 물어봤어?我爬上了珠穆朗玛峰也没找到谁问你了,我刚刚潜入了世界上最大的射电望远镜也没开到那个问你的人的盒,在找到谁问你之前我连癌症的解药都发明了出来,我开了最大距离渲染也没找到谁问你了我活在这个被辐射蹂躏了多年的破碎世界的坟墓里目睹全球核战争把人类文明毁灭也没见到谁问你了
点赞 评论 收藏
分享
01-06 17:13
贵州师范大学 C++ 点赞 评论 收藏
分享