24春招小红书机器学习算法工程师
全程25分钟
手撕:lc5 只需要输出长度,中心扩展秒了
项目
Transformer中缩放点击注意力为什么要除以根号下dk(这个问题被问到好多次了,给出了原文解释)
为什么值是根号下dk而不是dk,dk的2/3次方等?(这里李沐的动手学深度学习给出了一个解释:假设查询和键的所有元素都是独立的随机变量,并且都满足零均值和单位方差,那么两个向量的点积的均值为0,方差为d。为确保无论向量长度如何,点积的方差在不考虑向量长度的情况下仍然是1,我们再将点积除以根号下dk)
反问:业务,没有相关背景是不是劣势(是的,谈到一般会去实习,可是中科院不让实习)
面完五分钟就感谢信了,问的都答出来了,没有相关背景、实习经历还是不行。
手撕:lc5 只需要输出长度,中心扩展秒了
项目
Transformer中缩放点击注意力为什么要除以根号下dk(这个问题被问到好多次了,给出了原文解释)
为什么值是根号下dk而不是dk,dk的2/3次方等?(这里李沐的动手学深度学习给出了一个解释:假设查询和键的所有元素都是独立的随机变量,并且都满足零均值和单位方差,那么两个向量的点积的均值为0,方差为d。为确保无论向量长度如何,点积的方差在不考虑向量长度的情况下仍然是1,我们再将点积除以根号下dk)
反问:业务,没有相关背景是不是劣势(是的,谈到一般会去实习,可是中科院不让实习)
面完五分钟就感谢信了,问的都答出来了,没有相关背景、实习经历还是不行。
全部评论
这种不想要还捞真的恶心。
没有相关背景、实习经历还是不行。校招现在都要实习经验这么匹配了嘛,要求好高啊。。
相关推荐
点赞 评论 收藏
分享