淘天 NLP 二面
淘天二面
1.自我介绍
2.说是简单问几个基础题
BatchNorm 和 LayerNorm 的区别?
BatchNorm 计算的均值方差的维度是什么?(给我的是一个图片处理的维度,他说虽然我是 NLP,但是应该也做过图片吧?我说没有做过,面试官说问都问了就问到底吧。。。我:啊?)
LayerNorm 的计算的维度呢?
为什么 NLP 不用 BatchNorm?(重点是想听我回答样本长度不一样)
BatchNorm 公式,除了做基本的归一化,还有几个参数?(我讲了放缩和偏移值,应该还有一个 epsilon)
为什么要放缩和偏移?(说不太好)
3. 开始问项目
其实主要就是围绕 RAG 记忆项目这一个聊了聊
代码题
两个字符串相乘(我写的是第一种笨的解法,实现加法再实现乘法,代码量很大,和面试官逐步梳理了一遍代码,他说应该没啥问题,但是估计要跑通还是有 bug,记事本也不要求跑通了。 然后就跟我说另一种直接用 I j 计算位置的方法)
反问
1.自我介绍
2.说是简单问几个基础题
BatchNorm 和 LayerNorm 的区别?
BatchNorm 计算的均值方差的维度是什么?(给我的是一个图片处理的维度,他说虽然我是 NLP,但是应该也做过图片吧?我说没有做过,面试官说问都问了就问到底吧。。。我:啊?)
LayerNorm 的计算的维度呢?
为什么 NLP 不用 BatchNorm?(重点是想听我回答样本长度不一样)
BatchNorm 公式,除了做基本的归一化,还有几个参数?(我讲了放缩和偏移值,应该还有一个 epsilon)
为什么要放缩和偏移?(说不太好)
3. 开始问项目
其实主要就是围绕 RAG 记忆项目这一个聊了聊
代码题
两个字符串相乘(我写的是第一种笨的解法,实现加法再实现乘法,代码量很大,和面试官逐步梳理了一遍代码,他说应该没啥问题,但是估计要跑通还是有 bug,记事本也不要求跑通了。 然后就跟我说另一种直接用 I j 计算位置的方法)
反问
全部评论
蹲个后续
M
序列长度啥啥那几个原因只是背八股这么说 但不是本质原因吧? 对文本序列做跨样本的特征通道的归一会扭曲同一句子内部词和词的结构与语义 这样对文本理解是致命的?
相关推荐
11-06 13:20
华中科技大学 算法工程师 点赞 评论 收藏
分享