元象 大模型算法面经
不怎么发面经,但是元象的面试体验是目前面过所有的公司体验最好的,所以写出来分享一下
更新 ——————————————
9.30 二面
10.08 HR面(系统里写的联创面,以为是联合创始人面,结果是HR面)
HR很真诚,说不养鱼,很快谈薪
————————————————
大模型应用组:(面的时间比较早好些问题忘了)
8.24 投递
9.13 一面 30min
- 深挖实习
- deepspeed原理
- LoRA原理
- LN的作用
- 为什么LN能使模型训练更稳定
- 无手撕
9.19 二面挂 30min
- 全程深挖我的实习经历,无八股无手撕(面试官一直解释说是想鸡蛋里挑骨头,挺实诚的,行吧)
9.23 被大模型研发组捞
9.25 刚一面完 1h:
- 深挖实习
- deepspeed原理
- deepspeed和以往张量并行的区别
- transformer结构
- 拷打多头注意力(为什么多头更好,能不能单头)
- Llama相对于Transformer decoder的改进点
- RMSNorm和LN的区别
- prenorm和postnorm的区别
- 模型训练时显存占用(优化器,梯度,激活值等都怎么估计,假设模型7b)
- 序列并行的原理
- 介绍一下位置编码(和面试官讨论了RoPE和NTK系列的位置编码)
- RoPE为什么能够表示相对位置
- RoPE怎么作用的,如何旋转(我说完后面试官从数学角度补充了他的理解,鼠鼠受益良多)
- VLLM原理
- 为什么需要KV-cache
- “写个题呗,简单点的,反转链表吧”
这三场面试的面试官都很有礼貌。尤其刚面完的这场,面试官基础和技术都很强,感觉他没少看苏神博客,对原理拷打的很细致。很多问题我说完之后他会补上自己的理解和我讨论,不像是在面试哈哈哈。但是也感觉自己的所有积累也被他翻了个底朝天,收获很多,许愿一个二面~
更新 ——————————————
9.30 二面
10.08 HR面(系统里写的联创面,以为是联合创始人面,结果是HR面)
HR很真诚,说不养鱼,很快谈薪
————————————————
大模型应用组:(面的时间比较早好些问题忘了)
8.24 投递
9.13 一面 30min
- 深挖实习
- deepspeed原理
- LoRA原理
- LN的作用
- 为什么LN能使模型训练更稳定
- 无手撕
9.19 二面挂 30min
- 全程深挖我的实习经历,无八股无手撕(面试官一直解释说是想鸡蛋里挑骨头,挺实诚的,行吧)
9.23 被大模型研发组捞
9.25 刚一面完 1h:
- 深挖实习
- deepspeed原理
- deepspeed和以往张量并行的区别
- transformer结构
- 拷打多头注意力(为什么多头更好,能不能单头)
- Llama相对于Transformer decoder的改进点
- RMSNorm和LN的区别
- prenorm和postnorm的区别
- 模型训练时显存占用(优化器,梯度,激活值等都怎么估计,假设模型7b)
- 序列并行的原理
- 介绍一下位置编码(和面试官讨论了RoPE和NTK系列的位置编码)
- RoPE为什么能够表示相对位置
- RoPE怎么作用的,如何旋转(我说完后面试官从数学角度补充了他的理解,鼠鼠受益良多)
- VLLM原理
- 为什么需要KV-cache
- “写个题呗,简单点的,反转链表吧”
这三场面试的面试官都很有礼貌。尤其刚面完的这场,面试官基础和技术都很强,感觉他没少看苏神博客,对原理拷打的很细致。很多问题我说完之后他会补上自己的理解和我讨论,不像是在面试哈哈哈。但是也感觉自己的所有积累也被他翻了个底朝天,收获很多,许愿一个二面~
全部评论
hr 面和谈薪隔了多久呀 我也在排序呢
楼主谈薪完是发意向还是签两方?
相关推荐