腾讯pcg 三面 总监面 多模态

自我介绍

项目

deepspeed zero 的三个状态?

1b 的模型需要多少显存?16G。模型2g,梯度2g,优化器状态4g+4g(以adam为例,一阶动量32位和二阶动量32位)。如果有32位的模型参数的备份,就还有4g。一共2+2+4+4+4=16g。

adam 优化器的形式?

Adam优化器中:

  • 一阶矩估计:用于引入动量,使参数更新具有“惯性”,加速收敛,同时平滑梯度,减少噪声影响,让参数更新更稳定。
  • 二阶矩估计:通过衡量梯度方差,自适应调整各参数维度的学习率,使不同维度都能以合适速度更新,还能有效处理稀疏梯度问题。

dpo ppo grpo的区别?

为什么用llava 不用qwen-vl?

在图文检索任务中,对CLIP细粒度问题和词序问题的看法,可以怎么解决这个问题?分别从模型和数据层面来解决。

clip对比学习的方式导致了对词序和组合词不敏感,个人认为clip无法解决这个问题,只能结合llm,利用改成多阶段用clip + mllm去做。

做题

最大子数组和。

反问:

领导更看重新人的哪些特质?

责任心和自驱力(卷王赢麻了)。

还提到了大模型时代,很多问题其实都有解决的方案(相比于搜索引擎时代),就看个人是否有决心完成任务。

腾讯实习生有机会接触到核心业务吗?

可以,不会特别区分对待实习生。

怎么看待大模型,会不会代替掉算法工程师?

当然,要不断学习,但是不用过度担心,大模型也不是万能的。

面试官看着很年轻,也很能聊。

感觉还可以,80%概率进hr面

全部评论
请问这是总监面吗,总监也考察代码吗
点赞 回复 分享
发布于 04-03 21:45 湖北

相关推荐

评论
1
2
分享

创作者周榜

更多
牛客网
牛客企业服务