淘天 搜索算法 9.5 二面

1.code
有序数组某个数字出现的个数,二分,秒了
编辑距离,dp秒了,但是面试官要求不需要最优解,让写一个暴力解,且是迭代版本,最终写出了个bfs版本

2.数学
如何理解梯度
一个变量在沿着梯度方向增加很小量,y怎么变(求大佬指出)
一个函数在极小值一阶梯度和二阶梯度的特点是什么

3.八股
知道哪些机器学习常用优化器
adam和sgd的优缺点,为什么adam刚开始比sgd快,那如果我把sgd的lr调大,会比adam快吗
激活函数有哪些,relu和sigmoid优缺点
transformer的注意力为什么要多个头,多个头为什么能注意到不同信息,为什么一个头不能呢,反正最终输出都是相同维度,难道一起就学不到分开的东西吗(求大佬指出)
多头和单头计算量和参数量有什么变化(求大佬指出)

4.项目
ZILN是什么
怎么把连续值变道0-1之间,那1出会不会累计一些样本,这些样本怎么处理

没反问,面试官迟到了10min,问完项目就说今天先到这里吧,就没了
这难度有点高,被疯狂上强度,感觉不走寻常路,希望二面过吧
全部评论
多头会多一个输出的线性层,单头复杂度是n^2*d,多头是n^2*d+n*d^2
3 回复 分享
发布于 09-06 12:10 北京
这也太难了
点赞 回复 分享
发布于 09-05 12:45 江苏
这是纯八股呀
点赞 回复 分享
发布于 09-05 21:02 浙江
问的八股好深
点赞 回复 分享
发布于 09-06 09:05 重庆
uu 想问一下是淘天的哪个部门啊
点赞 回复 分享
发布于 09-06 09:06 北京
y=x+(dy/dx)△x;多头注意力里XQ,XK,XV参数是要学的,比如8个头那就学8个不同的线性变换矩阵最后再拼一块,多个矩阵肯定蕴含不同的特征,好比CNN映射的多通道feature map最后拼在一起
点赞 回复 分享
发布于 09-16 00:22 浙江

相关推荐

5 37 评论
分享
牛客网
牛客企业服务