商汤NLP一面
整体不到1h前20min讲了一个项目,没太详细问。
然后八股:
1. Llama2架构 (embedding, transformer block, LM head)
2. Llama2 transformer block里做了哪些改变 (RMSNorm, RoPE, SwiGLU, PreNorm不太清楚说全了没)
3. 为什么用RMSNorm不用LayerNorm (答参数量少,不太对)
4. 为什么用RoPE不用绝对位置编码,RoPE能表示绝对位置信息吗
5. 为什么现在主流都用Decoder-only而不是Encoder-decoder
6. LoRA原理,LoRA在用的时候可能会有哪些坑
7. QLoRA原理,QLoRA里用的是哪种量化,可以看作是一种超参数 (没太理解)。
最后手写一个快排,终止条件写反了愣了五分钟,回去等消息了
然后八股:
1. Llama2架构 (embedding, transformer block, LM head)
2. Llama2 transformer block里做了哪些改变 (RMSNorm, RoPE, SwiGLU, PreNorm不太清楚说全了没)
3. 为什么用RMSNorm不用LayerNorm (答参数量少,不太对)
4. 为什么用RoPE不用绝对位置编码,RoPE能表示绝对位置信息吗
5. 为什么现在主流都用Decoder-only而不是Encoder-decoder
6. LoRA原理,LoRA在用的时候可能会有哪些坑
7. QLoRA原理,QLoRA里用的是哪种量化,可以看作是一种超参数 (没太理解)。
最后手写一个快排,终止条件写反了愣了五分钟,回去等消息了
全部评论
这估计同一个面试官
佬,你是用小鱼易连面试的吗,怎么写算法题,是共享屏幕吗
佬,oc了吗,一共有几面啊,我刚刚约二面
佬,你的面经被小地瓜的偷了
相关推荐
11-17 14:33
东北大学 Python 点赞 评论 收藏
分享
点赞 评论 收藏
分享