商汤NLP一面

整体不到1h前20min讲了一个项目,没太详细问。

然后八股:
1. Llama2架构 (embedding, transformer block, LM head)
2. Llama2 transformer block里做了哪些改变 (RMSNorm, RoPE, SwiGLU, PreNorm不太清楚说全了没)
3. 为什么用RMSNorm不用LayerNorm (答参数量少,不太对)
4. 为什么用RoPE不用绝对位置编码,RoPE能表示绝对位置信息吗
5. 为什么现在主流都用Decoder-only而不是Encoder-decoder
6. LoRA原理,LoRA在用的时候可能会有哪些坑
7. QLoRA原理,QLoRA里用的是哪种量化,可以看作是一种超参数 (没太理解)。

最后手写一个快排,终止条件写反了愣了五分钟,回去等消息了
全部评论
这估计同一个面试官
1 回复 分享
发布于 09-06 09:21 北京
佬,你是用小鱼易连面试的吗,怎么写算法题,是共享屏幕吗
点赞 回复 分享
发布于 09-06 23:59 广西
佬,oc了吗,一共有几面啊,我刚刚约二面
点赞 回复 分享
发布于 09-10 18:52 广西
佬,你的面经被小地瓜的偷了
点赞 回复 分享
发布于 09-24 16:04 广东

相关推荐

评论
6
33
分享
牛客网
牛客企业服务