纠结的变色龙躺平又起来了

2024-09-10 08:11 浙江大学自然语言处理发布于北京

关注

百度自然与语言处理二面凉经

具体是做大模型训练套件的中台组，所以很考察涉及大模型内部计算的细节。

1.自我介绍
2.手撕和最大的连续子序列
3 写一个多头注意力 reshape transpose
4 为什么要使用多头注意力更多的qkv嵌入更好的表达能力
5 单头注意力和多头注意力计算量比较。多头略多一些，具体应该是多在多头注意力concat之后的又一次线性变换上。这题当时没答对。
6 为什么使用gqa，gqa的好处有啥。略微减少参数量，均衡性能并减少kv cache的压力。
7 为什么是kv cache 而不是qv cache。我理解是，如果是qv cache，这东西能算的注意力是最后一列而不是最后一行，这种计算甚至是反因果系统这个前提的，我感觉我的解释有道理，但面试官不满意，可能有更好的答案。
8 lora具体为什么能减少计算过程中的显存占用，具体减少在那部分上了？我认为权重和前向过程中的激活值在加上lora之后，整体也不会少太多，那么少的只能是来自梯度和优化器状态，其中大头是优化器状态。
9 拷打Megatron中的张量并行都存在哪些地方，具体如何做张量并行，当时没太完全看透Megatron（虽然现在也没看透），所以这题直接爆炸了。
10 具体来说Megatron在transformers中的张量并行，可以发生在mlp，attention，embedding，cross entropy这几块。在mlp上，存在一个因为非线性变换，而对两个矩阵乘中的右侧矩阵列split，左侧矩阵不切的方式进行并行，减少一个同步点。attention中的并行主要是对头并行。embedding和cross entropy中这是要减少vocab这个超大纬度给计算带来的压力，做vocab纬度的张量并行。
11 见我Megatron 张量并行打的不是很好，可能是想引导一下，面试官问我长文本训练中，需要算loss的token很多，怎么缓解这个过程的计算压力，我觉得他当时想引导我讲cross entropy的张量并行的，但我当时没想到。

反问很套路的了解部门业务

结果面完秒挂 😭

#如何判断面试是否凉了# #百度求职进展汇总# #互联网没坑了，还能去哪里？#

全部评论

推荐最新楼层

想奋斗的母单花在研究求职打法

东南大学机器学习

同二面挂，应该是同一个组

点赞回复分享

发布于 2024-09-15 22:40 江苏

门头沟学院算法工程师

7 下一个token是q，存qv cache没用。8 考虑全精度，少梯度，优化器一阶，二阶和activation 另外佬对3D和4D并行有啥经验分享吗，不知道有没有模板分法

点赞回复分享

发布于 2024-09-14 07:05 北京

门头沟学院算法工程师

问的好难啊

点赞回复分享

发布于 2024-09-10 12:55 陕西

希望有好offer

北京工业大学算法工程师

问的很细节

点赞回复分享

发布于 2024-09-10 10:55 北京

03-30 19:55

华为_系统工程师

面试真题 | 网易嵌入式开发(上)

1.自我介绍 2.讲一下项目主要用了哪些模块或者协议 在嵌入式系统项目中，主要涉及的模块和协议会根据具体应用场景有所不同。以下结合工业控制、物联网、通信接口等典型场景，从硬件模块、软件协议栈、通信协议三个维度进行深度解析： 一、硬件模块 核心控制模块 • ARM微控制器：基于Cortex-M系列（如STM32系列）或Cortex-A系列（如S3C2440）的处理器，承担系统主控任务。例如在工业控制中，S3C2440通过SPI接口连接MCP2510 CAN控制器，实现总线通信。 • 专用协处理器：如DSP用于信号处理（TMS320系列）、FPGA用于实时逻辑控制。 通信接口模块 • 有...

ARM/Linux嵌入式...

点赞评论收藏

分享

03-28 14:47

哈尔滨工业大学产品经理

面试官：产品如何进行大模型选型？

作为AI产品经理，大模型选型需要从业务目标、技术特性和资源投入三个维度进行系统性评估。分步骤的选型：1. 场景需求拆解- 任务类型：区分生成式（GPT）、理解式（BERT）、多模态（CLIP）等任务需求- 性能指标：明确时延要求（如对话场景&amp;lt;2s）、准确率阈值、内容安全等级- 输入输出：处理文本长度（如法律文本需支持10k tokens）、多语言支持需求2. 技术参数评估- 模型架构对比：Transformer层数（如LLaMA 7B vs 13B）、注意力机制差异- 性能基准测试：在HuggingFace OpenLLM Leaderboard等榜单比对MMLU/HELM得分- 领域适配性：检查是否经过垂直领域微调（如Med-PaLM 2医疗专用模型）3. 成本效益分析- 推理成本计算：API调用成本（如GPT-4 $0.03/1k tokens）vs 自建GPU集群成本- 算力需求评估：模型参数量与GPU显存关系（7B模型需至少16G显存）- 长尾运维成本：监控维护、版本迭代、安全补丁更新等隐性成本4. 工程化适配度- 部署方案验证：测试ONNX转换效果、量化后精度损失（INT8量化典型损失2-5%）- 扩展能力测试：分布式推理效率、最大并发请求承载量- 工具链完整性：配套的Prompt工程工具、评估体系、持续训练Pipeline5. 风险合规审查- 数据隐私合规：评估模型训练数据来源合法性（如排除版权争议数据）- 输出可控性：测试有害内容生成概率及防护机制有效性- 许可证审查：确认商用限制（如LLaMA商用需单独授权）6. 迭代路线规划- 短期方案：采用API快速验证（如Azure OpenAI）+ RAG增强时效性- 中期过渡：微调行业小模型（LoRA适配器方案）- 长期演进：构建混合模型架构（大模型+规则引擎+传统ML） #牛客激励计划#  #大模型#  #大模型面经#  #找工作#  #聊聊我眼中的AI#  #数据人的面试交流地#  #AI了，我在打一种很新的工#  #产品经理# #牛客AI配图神器#

牛客激励计划聊聊我眼中的AI

点赞评论收藏

分享

03-24 15:30

已编辑

门头沟学院算法工程师

大模型面经每日总结

BP16 和 FP16 在存储结构、精度表现、数值范围以及适用场景方面有什么不同？训练时使用bf16更稳定，表示范围大，并且自带隐式正则化buffer；推理时使用fp16比bf16更好，因为fp16表示精度高。 https://www.zhihu.com/question/616600181/answer/3194881239怎么解决训练使用float16导致溢出的问题？使用 缩放因子 trick混合精度训练kv-cache的作用一种缓存技术，通过存储键值对的形式来复用计算结果，以达到提高性能和降低内存消耗量化方法的分类按量化对象分：KV Cache量化、模型权重量化、激活值量化-按量化阶段分...

查看6道真题和解析

点赞评论收藏

分享

03-26 21:17

北京邮电大学算法工程师

面壁智能一面

1. （项目的点衍生出来的）RoPE 原理，手撕2. Transformer MHA 手撕3. vLLM为什么能加速？PagedAttention4. CPU/ GPU 架构，为什么设计 GPU5. GPU 硬件架构具体介绍一下6. 发散的问题：怎么看待AGI，怎么看待大模型的“智能”，平时用什么大模型？（回答豆包，感觉应用做的比较好）感觉整体问的还是比较深入的，一个问题可以拓展出很多细节。问题比上午的电信更理论一些，电信更落地更贴近业务（？可能是面试官的仁慈）偏八股吧，美团全是项目…可能是暑期实习和日常实习的差别？

查看6道真题和解析

点赞评论收藏

分享

03-15 11:29

已编辑

中共中央党校（国家行政学院）研究生院 Java

BAT集齐？暑期实习面经分享

看之前 帮忙选个offer 能给出理由就更好啦 感谢蚂蚁这个面试官说 主要做风控方向 内部要全面拥抱大模型 我自己简历也是偏向大模型的腾讯 需要转GO 听面试官说是 做 游戏运行平台的运维平台的后台开发 岗位是 《技术运营》感觉低后台一等？不懂字节 需要转GO 财经业务 做 资产证券化 营销之类的 也可以选抖音月付好像 不过HR听我不能3月底到港 OC以后就一直没动静了 腾讯面经看我以前帖子字节一面1.自我介绍2.开始拷打项目中的八股（简历里没有的没问） 2.1 rocketmq一大堆 架构 新特性 新特性谈到 相比kafka更高维度的事务支持 那你谈谈他的事务是如何实现的（...

点赞评论收藏

分享

评论

6

29

招聘动态

26届实习软件笔试必刷题单

26届实习求职交流群

字节跳动Tik Tok

26届实习招聘

26届投递链接合集

快手

25届补录+26届实习

字节跳动-Tik Tok

26届实习生招聘

25届春招专场

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 找工作，行业重要还是岗位重要？ #

7975次浏览 104人参与

# 五一之后，实习真的很难找吗？ #

46192次浏览 334人参与

# 盲审过后你想做什么？ #

12777次浏览 115人参与

# 领导秒批的请假话术 #

10048次浏览 74人参与

# 设计人如何选offer #

98461次浏览 690人参与

# 外包能不能当跳板？ #

22213次浏览 191人参与

# 五一假期，你打算“躺”还是“卷”？ #

31511次浏览 441人参与

# 考研可以缓解求职焦虑吗 #

21295次浏览 252人参与

# 面试等了一周没回复，还有戏吗 #

115715次浏览 1075人参与

# 大疆的机械笔试比去年难吗 #

69665次浏览 603人参与

# 如果有时光机，你最想去到哪个年纪？ #

43360次浏览 769人参与

# 找工作前vs找工作后的心路变化 #

7214次浏览 64人参与

# 硬件人，你被哪些公司给挂了 #

46785次浏览 723人参与

# 写简历别走弯路 #

714623次浏览 7850人参与

# 应届生薪资多少才合理？ #

3127次浏览 24人参与

# 你喜欢工作还是上学 #

37739次浏览 413人参与

# 每人推荐一个小而美的高薪公司 #

72866次浏览 1357人参与

# 如果不工作真的会快乐吗 #

101291次浏览 867人参与

271927次浏览 2849人参与

# 牛友们的论文几号送审 #

27289次浏览 623人参与

牛客网
牛客企业服务