腾讯pcg 三面 总监面 多模态
自我介绍
项目
deepspeed zero 的三个状态?
1b 的模型需要多少显存?16G。模型2g,梯度2g,优化器状态4g+4g(以adam为例,一阶动量32位和二阶动量32位)。如果有32位的模型参数的备份,就还有4g。一共2+2+4+4+4=16g。
adam 优化器的形式?
Adam优化器中:
- 一阶矩估计:用于引入动量,使参数更新具有“惯性”,加速收敛,同时平滑梯度,减少噪声影响,让参数更新更稳定。
- 二阶矩估计:通过衡量梯度方差,自适应调整各参数维度的学习率,使不同维度都能以合适速度更新,还能有效处理稀疏梯度问题。
dpo ppo grpo的区别?
为什么用llava 不用qwen-vl?
在图文检索任务中,对CLIP细粒度问题和词序问题的看法,可以怎么解决这个问题?分别从模型和数据层面来解决。
clip对比学习的方式导致了对词序和组合词不敏感,个人认为clip无法解决这个问题,只能结合llm,利用改成多阶段用clip + mllm去做。
做题
最大子数组和。
反问:
领导更看重新人的哪些特质?
责任心和自驱力(卷王赢麻了)。
还提到了大模型时代,很多问题其实都有解决的方案(相比于搜索引擎时代),就看个人是否有决心完成任务。
腾讯实习生有机会接触到核心业务吗?
可以,不会特别区分对待实习生。
怎么看待大模型,会不会代替掉算法工程师?
当然,要不断学习,但是不用过度担心,大模型也不是万能的。
面试官看着很年轻,也很能聊。
感觉还可以,80%概率进hr面