一些凉经
Shoppe
一面
- 简历项目
- 如何估算显存开销
- 优化器中会保存哪些数据
- 为什么会保存一份模型参数
- Llama Factory中的padding,当多条数据拼接时如何处理,对attention有什么影响
- 优化器状态里面包括什么
- pytorch中的calculator如何进行梯度累积
- Code:一个骰子投n次,求概率分布
字节 抖音搜索
一面
- 简历实习项目1,数据构建?评估?如果再做一边如何来进行优化?
- 简历实习项目2,难点?挑战?如果再做一边如何来进行优化?
- 算法 手写LayerNorm最多k个不同字符的最长字串
- 模型参数如何计算?
- MHA中有哪些额外计算?
- GQA,MLA?
二面
- 拷打
- Code 编辑距离
蚂蚁 数字支付 自然语言处理
一面
- 简历项目
- QKV的含义
- 机器翻译任务中kv可以是同一个吗?
- RL中Model based和Model free的区别?
- MCTS属于哪一种?介绍一些MCTS的过程?
- Policy Based和Value Based的区别?
- GRPO和DPO的区别?
- Code:打家劫舍
- 平时如何学习新知识?
- 对大模型的未来的看法?
- 选择岗位看中什么?
- 反问
阿里 淘天
一面
- 自我介绍
- 介绍一下口语化的流程,数据集大小,如何构造,为什么用Qwen不用混元?
- 如何评估?如何迭代?上线之后如何面对保证响应速度?
- 有哪些微调方式,Lora了解吗?Adaptor放在哪里?
- 为什么要用RLOO?和PPO比有什么优势,Reward怎么构造?
- 介绍一下PPO,DPO,GRPO等等?有什么异同?
- 介绍一下Cpt的数据大小,为什么要混入通用数据?怎么配比?
- Cpt和Pretrain的区别?用了多少张卡,训练了多久
- 介绍一下RAG的项目,检索的数据准确性?具体场景?
- 介绍一下Encoder-Decoder的异同
- 位置编码,相对、绝对,RoPE,有什么好处?
- 常见Tokenizer有哪些,subword分词有什么好处?
- Transformer中包含哪些块?MLP,Attention,Embedding,LayerNorm?
- Attention计算流程,QKV如何得到?
- Code:手写MLP以及训练过程
- 到岗时间?