京东算法一面面经

第二天速通人才库

写个面经攒攒人品

面试了半个小时,主要还是项目和实习延申出去的一些八股

  1. 为什么要用BPE,讲一下原理,对自己的项目有什么提升
  2. 为啥项目不使用 Decoder Only 的而要使用 BERT (应该是想了解三种预训练架构间的区别,还有各自特点)
  3. Stable Diffusion、DiT、UViT 的区别
  4. 讲了一下 LoRA 原理和特点,LoRA 两个低秩矩阵怎么初始化的(A高斯B为0),AB 初始化能不能反过来 or 都是0 or 都是高斯(不行,这样影响到主干的初始状态了)。(AB 初始化能不能反过来没当场回答出来,我觉得应该是可以的,不知道会不会有影响;全为 0 应该也不行,有没有大佬讲讲具体原因

手撕(只用说思路或者写伪码):

  1. 516. 最长回文子序列 (想不出来状态转移方程,面试官直接说换一道题)
  2. 链表是否有环
#面经##算法##京东#
全部评论
个人理解,LoRA微调里面,AB反过来初始化可以,但不可以全0,A的梯度更新过程依赖于B,B的梯度更新依赖于A,因此初始化是需要AB其中之一非0,而AB其中之一为0可以保证在微调的初始阶段,原模型从大的文本语料库中学到的信息被保留下来,所以AB其中之一需要为0
1 回复 分享
发布于 08-31 14:55 四川
楼主是大模型算法岗吗
点赞 回复 分享
发布于 09-01 17:29 贵州
一个为0应该就可以。
点赞 回复 分享
发布于 09-02 10:36 北京

相关推荐

10-17 12:16
同济大学 Java
7182oat:快快放弃了然后发给我,然后让我也泡他七天最后再拒掉,狠狠羞辱他一把😋
点赞 评论 收藏
分享
10-11 17:45
门头沟学院 Java
走吗:别怕 我以前也是这么认为 虽然一面就挂 但是颇有收获!
点赞 评论 收藏
分享
评论
点赞
16
分享
牛客网
牛客企业服务