京东算法一面面经
第二天速通人才库
写个面经攒攒人品
面试了半个小时,主要还是项目和实习延申出去的一些八股
- 为什么要用BPE,讲一下原理,对自己的项目有什么提升
- 为啥项目不使用 Decoder Only 的而要使用 BERT (应该是想了解三种预训练架构间的区别,还有各自特点)
- Stable Diffusion、DiT、UViT 的区别
- 讲了一下 LoRA 原理和特点,LoRA 两个低秩矩阵怎么初始化的(A高斯B为0),AB 初始化能不能反过来 or 都是0 or 都是高斯(不行,这样影响到主干的初始状态了)。(AB 初始化能不能反过来没当场回答出来,我觉得应该是可以的,不知道会不会有影响;全为 0 应该也不行,有没有大佬讲讲具体原因)
手撕(只用说思路或者写伪码):
- 516. 最长回文子序列 (想不出来状态转移方程,面试官直接说换一道题)
- 链表是否有环