蚂蚁一面被拷打

1.DeepSpeed Zero(123)
2.流水线并行
3.显存中模型参数,梯度,优化器参数的比例
4.混合精度,在模型训练的过程中混合精度的变化过程
5.流水线并行的时候气泡现象
6.介绍PPO,DPO,GRPO
7.Prompt设计
8.模型重复输出应该如何解决
9.TopK,TopP,Temperature
10.介绍Encode结构
11.有哪些位置编码
12.RoPE如何实现
13.DeepSeek的注意力机制MLA
14.DeepSeek的混合专家模型MoE
15.模型的外推性
16.Layer normalization在前面和在后面的区别和优缺点
17.Batch norm相比Layer norm
18.RMS norm为啥去掉减去均值的步骤也可以有效?
19.word embedding
20.有哪些高效微调的方法
21.了解QWQ模型吗
全部评论

相关推荐

03-29 17:36
已编辑
门头沟学院 Java
“主播主播,你的项目技术确实很强,但还是太吃并发量了,有没有简单又强势的技术”“有的有的,这么强的技术当然不止一个,一共有9个,都是当前版本T0.5的强势技术”;好好准备项目,电话面为了防止你看电脑背诵,会问很多的场景题,脑子要灵光,面试官会引导你,大胆说你的思路,表达即合理,面试官注重你的临场的发挥,八股背到极致就要求融会贯通(我还差很远),后续要多看一下别人的技术方案,扩展思路;1. 什么是session共享问题?怎么解决2. redis存储中数据丢失(回答的构建集群)3. 讲一下redis集群构建4. 讲一下redis集群中的故障转移(主节点挂掉时,从节点如何上位)5. 缓存穿透?怎么解决,bitmap里存储的是mysql上的数据吗,和缓存空值的方法相比好处是什么?6. mysql增删时bitmap是如何更新的,mysql,redis缓存,bitmap是什么样的关系?(这部分从应用层面巧妙的回答了一下:mysql增加商品信息时,异步去构建bitmap,因为我的应用场景可以不保证商品上线的及时性,只需要保障原始商品的有效性)------这部分问了好长时间、有点乱说的成分7.缓存一致性问题8.消息队列出现了问题,会带来什么问题9.很多连接打到Mysql上,Mysql有没有自己的保护机制(Mysql连接池)10.事务隔离级别11.幻读是什么?出现在什么隔离级别12.为什么会出现秒杀超卖现象13.CAS原理,CAS在mysql上的具体应用答的一般,希望能有二面最后没有手撕。---------------------------------------------更新已约二面,3.24————————————————————————更新:视频面了半小时,主要是线程和进程之间的问题,加锁的代码也要写一些,就面了半小时,凉凉了,没有秒挂就是胜利3.25更新 已结束流程#蚂蚁#
查看28道真题和解析
点赞 评论 收藏
分享
评论
1
5
分享

创作者周榜

更多
牛客网
牛客企业服务