字节多模态一面折磨经

全程不问基础知识,不问简历,开放性问题探讨,总时长1.5h。
问:看你做的是vqa,那么请你发散性说一下如果针对一个视频怎么做vqa
答:抽帧采样,时间序列拼接token...
问:视频,语音,文本怎么多模态融合
答:cross attention
问:不用attention实现融合
答:3D卷积
问:transformer里不用attention实现融合
答:misture of experts
问:视频前后帧怎么融合
bulabulabula,每一个方案都要从输入开始描述每一步处理过程,他会一点点给你提这个方案现有的问题,如何解决,就算答不会了面试官也会继续说他的观点让你补充,后面基本全程懵逼,智商被碾压。
最后给了一道hard结束。
面试官态度很好,但是过程很折磨,是智商被碾压的折磨。面完感觉像参加了圆桌会议。虽然没挂但是已经不想继续面了,诚心感觉水平配不上#字节实习生##字节算法实习##多模态##暑期实习##算法面经#
全部评论
这是什么部门呀,问这么难
点赞 回复 分享
发布于 03-14 22:30 广东
字节好难啊
点赞 回复 分享
发布于 2023-04-26 02:24 上海
字节有群面吗?
点赞 回复 分享
发布于 2023-04-08 22:57 广东
1.5h的面试,这么长时间吗?
点赞 回复 分享
发布于 2023-04-08 22:54 四川

相关推荐

腾讯NLP 1.跨模态对齐有哪些方式?为何逐渐不使用Q-Former?2. Baichuan2 - 7B模型架构是怎样的?其位置编码如何实现?与Qwen家的位置编码实现有何不同?3. 了解Qwen - VL吗?其架构如何?有何独特之处?4. Adapter、P - tuning和Lora之间的区别与联系是什么?5. 数据集如何构建与评测?6. 数据集评估过程中遇到哪些困难?如何解决?7. RAG检索内容是否相关?有无进行Rerank或其他操作?8. 对Agent有何看法?9. 了解强化学习DPO吗?与PPO有何区别?有什么好处?10. 谈一谈大模型完整训练过程及每一阶段的作用。混元大模型团队1.Qwen 和 DeepSeek 有什么区别?2.为何大家都开始探索 MoE 架构?MoE 相比 Dense 有什么好处?3.用 LoRA 微调过 Qwen,是否全量微调过?两者性能表现有何对比?4.用 DeepSpeed 微调过 Qwen2 - 72B,ZeRO - 1、ZeRO - 2、ZeRO - 3 三个模式的区别是什么?用 DeepSpeed ZeRO - 3 微调 Qwen2 - 72B 时,每一张卡占用显存大概是多少?为什么?5.除了 DeepSpeed,还用过哪些优化方法?6.知道 LoRA 的原理吗?A 和 B 两个矩阵怎么初始化?了解过其他初始化方法吗?7.讲一下大模型训练和推理的流程,SFT 和 RLHF 的作用分别是什么?8.在 RLHF 中,目前主流的强化学习算法有哪几个?写出损失函数的表达式。9.对 RLHF 了解多少?讲一下 RLHF 的流程。之前有用 RLHF 做过模型对齐吗?在做对齐时,为什么 SFT 之后还要做 RLHF?只用 SFT 可以吗?10.知道哪些强化学习算法?除了 PPO 和 DPO,DeepSeek 用的 GRPO 相比于 GPT 的 PPO 做了哪些改进?11.微调 Qwen 时,数据是怎么构造的?有用到什么数据清洗方法?数据配比是怎么做的?CSIG腾讯地图1. 进行自我介绍,聊简历上和大模型相关的项目(约5分钟)。2. 讲一下LORA的基本原理。3. 了解主流的开源大模型吗?如Llama、Qwen、deepseek。4. 对Python的熟悉程度如何,能用pytorch写一下多头注意力机制吗?5. C++的代码能力情况(较随意聊) 。6. 手撕代码:反转链表和合并有序链表。7. 反问问题:    - 腾讯地图做的大模型应用是什么?    - 对Manus的看法是什么? 百度文心一言1. PPO 与 GRPO 的区别,分别介绍它们的优势与缺点。2.DPO 对齐训练的曲线是怎么样的,正例的概率会提升吗?参考这个知乎回答。3.Deepseek - R1 里面不仅推理能力很好,而且文采能力也很好,这是个开放问题,如何让模型的文采能力也很好呢?4.deepseed 介绍。5.deepspeed 的每一段的通信比较,zero3 分别是 0 和 2 的多少倍,1.5 倍。6.DPO 如何解决回答过长的问题,除了正则。7.开放问题:为什么现在大家都在关注于大模型的推理能力 reasoning。8.对于一个 base model 如何增强大模型的 reasoning 能力。9.DPO 除了长度问题还有其他的问题吗?与问题 2 对应,reward hacking?都没有奖励模型了。10.说一下 simpo 的原理,它是怎么解决 dpo 微调序列过长的问题的。minimax1.大模型算法中模型参数量每个部分有多少?2.你了解哪些评估 minimax 大模型算法的手段?3.如何评估 minimax 大模型算法中多模态模型的输出质量?4.对于 minimax 大模型算法的数据集,如何提高质量?如何利用 gpt 辅助提升数据集质量?5.有哪些方法可以提升 minimax 大模型算法中预训练模型的质量?
点赞 评论 收藏
分享
- 飞书,开视频,面试官很友好,主要是让我在做整体流程的介绍,然后问了些常规八股- 第二个手撕在同一个小时的细节上没有完全撕出来,解决了90%,整体思路没问题- 3.6投递 3.20一面 3.24感谢信- 八股基本上都秒了,项目也讲清楚了,sql也都是秒的,也不懂为啥就挂了## 项目- 先那就挑一个你觉得做的最好的一个入仓的离线数仓的项目,具体讲一讲。从业务的背景,它的业务过程,你在其中做了什么内容,最后取得了什么成果这种思路展开讲一下。- 那你从业务的视角就是说是他比如说你的你的业务过程到底有哪些业务过程它有哪些数据,然后你怎么去做建模的,然后这种方式再细一下说一下。- 这个指标的话,其实你做了多少,做了哪些表,然后他的力度是什么?然后又有什么维度呢?- 在做这个指标的时候,你这整个的数据链路是啥?从离线到从是从线上到离线,然后再到你的指标,最后是大盘这种(大盘应该指的就是可视化)  - 我应该多讲一下数据通路中用到的数据同步工具- 你设计的DWD、DWS它的粒度是什么?都有哪些维度呢?- 你在做这个数仓其实是要类数仓的这样一个项目的话。那其实你觉得这里面最最难的点是在什么- 你现在的话其实更多的是接业务方需求,比如说业务方来一个需求做一个表,来个需求做一个表,那你的数据你的表就会越来越多越来越多。这跟是数仓的这种兼容和扩展影响不是很大吗?你这个是怎么考虑的?- 数据倾斜问题## 八股- 数仓建模的一般流程你知道吗?- 刚才提到你说总线矩阵,那总线矩阵的就是说横坐横轴跟纵轴都是什么?- ODS、DWD、DWS它的定位- ODS里面已经有了这个数据,为什么不直接从ODS里面去取还要再新建一个DWD呢?- Spark里面就是说它的一个优化的方法,你这边都用过哪些?- 小表join大表的话,是小表在前还是大表在前?- MR中MapTask个数和ReduceTask个数由什么决定?- Row number和rank的区别- avg函数他在算这种平均值的时候会忽略null吗?  - **`AVG` 函数的分母是有效数值的数量**## 手撕- SQL:学生成绩平均值问题和>60的问题,很简单- SQL:直播间同一天同一个小时内最大在线人数
MinJerous:有同学已经接了offer,不需要后续推进了。或者没hc了,还有就是很少,需要排序进三面(ld)
查看20道真题和解析
点赞 评论 收藏
分享
03-20 15:12
已编辑
门头沟学院 Java
上次抖音生态运营挂后,风控团队HR联系约面,HR姐姐电话里千叮咛万嘱咐,算法再刷刷(看来上次贪心二分IP段那个算法,留下了不太妙的面评)一面(2025-03-10)1. 常用的HTTP方法,以及使用场景2. HTTP协议Header字段举例3. Cookie和Token区别?为什么Token可以放到Authorization字段中?4. HTTP和HTTPS的区别?5. 中间人攻击怎么攻击的?(流程)中间人怎么获取到密钥?(ps:我研究生做密码学密钥协商的)6. 项目中的滚动分表如何考量?7. 缓存优化如何保证DB和缓存的一致性?8. 如果现在不只存冷数据,如果缓存中的数据有可能变更,怎么做一致性?9. Redis缓存过期时间是怎么设置的?10. 布隆过滤器在项目里面怎么用的?11. 12306 RocketMQ选型?对比其他消息队列有没有进行过对比?12. 手撕1:给一个域名,例如:www.douyin.com 反转成 com.douyin.www,要求使用JavaAPI和字节数组O(1)空间原地翻转两种形式。13. LRU,不允许使用LinkedHashMap,面试官说没时间了,口播下思路就行14. 反问二面(2025-03-13)1. 项目拷打2. 你项目里压测发现CPU占用过高,这是哪一块的CPU占用过高?压测的什么呢?3. 压测的目的是什么呢?4. 讲一下你的分布式锁是怎么实现的,讲一下怎么用的?5. 分布式锁用的redis里的哪个指令?6. 除了过期时间,分布式锁还有其他地方要考虑的吗?7. 除了redis,你了解过其他组件能帮助实现分布式锁吗(etcd,zookeeper等,还有mysql)?为什么最终选择了redis?8. 你后面提到你还是用redis做了缓存,这个缓存中是什么内容?9. 对于这种大量任务并发场景,用MQ来做会不会好一点?说一下你怎么改变一下设计?10. 那你觉得RocketMQ如果用的话,会有什么问题吗?11. MQ有什么机制能够帮助你实现你的调度时间这个特性?12. rocketmq延迟消息怎么实现的?13. 本来我希望十分钟后执行,但现在我改主意了,希望推迟执行,可是消息已经发送出去了,你该怎么处理?14. 大概说一下主键索引和唯一索引的区别15. 没有主键数据怎么存呢?16. 如果有主键,还会你说的rawid吗?17. 建表的时候,你一般考虑健什么索引?建多少索引?18. Epoll的边缘触发相较于水平触发而言,优化的主要是哪一块的开销?19. 为什么能够优化系统调用次数呢?20. 在实现一个网络库的时候,有哪些事件是可以不用监听的?举最简单的例子来说,缓冲区里的读事件、写事件、读写事件,你实现一个网络库不监听这些事件会有什么问题或好处?21. 引导:那你描述一下Epoll编程我怎么去监听一个事件?wait你要监听哪些东西,有哪些东西我其实可以不监听?(这个没答出来,对epoll的理解还是太浅了)22. 刚才你提到了一个很核心的词:状态变化。epoll的核心就是状态变化,那是不是有些状态变化我是可以不管的?23. 手撕:字节上次杭州那个部门挂的那道算法,这次做了点改动,又让我撕。感觉撕的比较顺利。24. 反问当天下午,感觉还行,问了HR啥时候出结果,HR说第二天,结果晚上直接给我挂了,哭。当天晚上觉得伤心,字节上又狂投十多个部门,结果均石沉大海,杳无音讯,这是因为啥脏的面评吗?(嘤~)
点赞 评论 收藏
分享
评论
5
31
分享

创作者周榜

更多
牛客网
牛客企业服务