一些凉经

Shoppe

一面

  1. 简历项目
  2. 如何估算显存开销
  3. 优化器中会保存哪些数据
  4. 为什么会保存一份模型参数
  5. Llama Factory中的padding,当多条数据拼接时如何处理,对attention有什么影响
  6. 优化器状态里面包括什么
  7. pytorch中的calculator如何进行梯度累积
  8. Code:一个骰子投n次,求概率分布

字节 抖音搜索

一面

  1. 简历实习项目1,数据构建?评估?如果再做一边如何来进行优化?
  2. 简历实习项目2,难点?挑战?如果再做一边如何来进行优化?
  3. 算法 手写LayerNorm最多k个不同字符的最长字串
  4. 模型参数如何计算?
  5. MHA中有哪些额外计算?
  6. GQA,MLA?

二面

  1. 拷打
  2. Code 编辑距离

蚂蚁 数字支付 自然语言处理

一面

  1. 简历项目
  2. QKV的含义
  3. 机器翻译任务中kv可以是同一个吗?
  4. RL中Model based和Model free的区别?
  5. MCTS属于哪一种?介绍一些MCTS的过程?
  6. Policy Based和Value Based的区别?
  7. GRPO和DPO的区别?
  8. Code:打家劫舍
  9. 平时如何学习新知识?
  10. 对大模型的未来的看法?
  11. 选择岗位看中什么?
  12. 反问

阿里 淘天

一面

  1. 自我介绍
  2. 介绍一下口语化的流程,数据集大小,如何构造,为什么用Qwen不用混元?
  3. 如何评估?如何迭代?上线之后如何面对保证响应速度?
  4. 有哪些微调方式,Lora了解吗?Adaptor放在哪里?
  5. 为什么要用RLOO?和PPO比有什么优势,Reward怎么构造?
  6. 介绍一下PPO,DPO,GRPO等等?有什么异同?
  7. 介绍一下Cpt的数据大小,为什么要混入通用数据?怎么配比?
  8. Cpt和Pretrain的区别?用了多少张卡,训练了多久
  9. 介绍一下RAG的项目,检索的数据准确性?具体场景?
  10. 介绍一下Encoder-Decoder的异同
  11. 位置编码,相对、绝对,RoPE,有什么好处?
  12. 常见Tokenizer有哪些,subword分词有什么好处?
  13. Transformer中包含哪些块?MLP,Attention,Embedding,LayerNorm?
  14. Attention计算流程,QKV如何得到?
  15. Code:手写MLP以及训练过程
  16. 到岗时间?
全部评论

相关推荐

评论
2
8
分享

创作者周榜

更多
牛客网
牛客企业服务