美团搜索推荐算法工程师面经(已OC)

一共只面了两轮,9.3一面,9.9二面,没有HR面,9.20 OC

一面/技术面 2024/9/3 晚上20:00-21:00

  1. 自我介绍
  2. 腾讯实习介绍
  3. 实习过程中做的比较好的部分有哪些
  4. 华为框架以及NPU使用过程中遇到的问题
  5. LongLoRA和LoRA区别
  6. 大模型和推荐你觉得有哪些可结合的点?商品的理解、描述等
  7. 介绍快手实习
  8. 在线的效果
  9. 这段实习主要的难点在哪里
  10. user会事先做一些embedding预处理吗
  11. loss是什么
  12. 会有u2i的融入吗
  13. 迁移学习
  14. 过平滑理解
  15. NeurIPS论文介绍
  16. baseline分为哪些
  17. BN在train和test的区别
  18. 代码题:重排链表

二面/技术面 2024/9/9 下午15:00-15:40

  1. 自我介绍
  2. 实习中遇到的最大挑战
  3. 华为卡训练相关的问题
  4. 一般怎么debug
  5. 讲一下NIPS论文,论文想法来自哪里
  6. 围绕论文问了七八个问题
  7. 论文如果要落地,比较难的点在哪
  8. GNN里边你觉得最重要的知识点是什么
  9. 图采样算法了解多少
  10. GNN在工业界的关键落地应用有哪些
  11. 这些落地过程中,一般会有什么挑战
  12. 你学新东西有没有什么高效的方法,一般怎么看论文
  13. 你的这套方法应用后,如何判断是否真的学懂了
  14. Transformer的结构讲解
  15. 位置编码有哪几种
  16. 问了问GitHub里边参与的一些PR
  17. 算法题:数组的top-k值,复杂度小于快排
#美团求职进展汇总##搜广推##晒一晒我的offer##美团##25秋招记录#
全部评论
哪个部门呀 佬
点赞 回复 分享
发布于 2024-09-23 14:27 黑龙江
哪个部门呀,佬。
点赞 回复 分享
发布于 2024-09-23 19:02 北京
这俩咋回答: 你学新东西有没有什么高效的方法,一般怎么看论文 你的这套方法应用后,如何判断是否真的学懂了
点赞 回复 分享
发布于 2024-09-25 09:58 福建
佬,你二面完面试状态有变过么
点赞 回复 分享
发布于 2024-09-25 10:13 湖北
佬啥时候投的,笔试a了几题呀。
点赞 回复 分享
发布于 2024-09-27 08:42 湖南

相关推荐

一、训练范式革新:动态计算图与自适应优化  传统静态计算图难以应对大模型复杂计算流,2023年技术突破集中在:  1. **即时编译(JAX+XLA)**:Google的**JAXformer**框架通过动态分区策略,在TPUv4集群上实现92%的计算资源利用率,较PyTorch静态图提升37%  2. **梯度累积重参数化**:Meta的**GradRewrite**技术利用张量重映射算法,在OPT-175B训练中减少梯度同步次数58%,通信开销下降42%  3. **自适应混合精度**:NVIDIA的**APEX Dynamic**方案实时监控梯度幅值,动态切换FP8/FP16精度模式,在BERT-large训练中节约显存39%  前沿进展包括**符号微分加速器(SDA)**,如Cerebras的CS-3芯片内置微分引擎,在求解Jacobian矩阵时实现100倍于GPU的加速比。MIT提出的**Progressive Token Dropping**策略,通过重要性采样提前丢弃低贡献token,在ViT-22B训练中节省23% FLOPs。   二、分布式训练体系:异构硬件的统一抽象  跨设备训练面临内存一致性难题,最新解决方案涵盖:  - **统一内存地址空间**:AMD的**Unified Memory Fabric**技术突破PCIe瓶颈,在MI300X集群实现1.5TB/s的GPU-GPU直连带宽  - **异步流水线并行**:DeepMind的**PipeDream-2BW**采用双缓冲机制,在128节点集群中流水线气泡率降至4.2%  - **动态负载均衡**:阿里云**ODPS-Mars**系统通过实时性能建模,在混合GPU/CPU集群中提升任务调度效率31%  工业界标杆案例:字节跳动**Volcano Engine**采用**分层参数服务器**架构,支持万亿参数模型训练,通过稀疏梯度聚合算法将通信量压缩至原始值的6.7%。   三、推理引擎设计:编译优化与硬件感知  模型服务面临编译器优化天花板,突破性技术包括:  1. **计算图手术(Graph Surgery)**:TensorRT-9.0引入动态OP融合策略,针对LLaMA-70B实现41%延迟降低  2. **硬件感知量化**:Qualcomm的**AIMET 2.0**工具链通过芯片级指令分析,在Snapdragon 8 Gen3实现INT4量化下98.2%精度保留  3. **即时内核生成**:OpenAI的**Triton 3.0**编译器支持动态模板扩展,在A100上实现FlashAttention-V2的2.7倍加速  创新案例:Groq的**LPU架构**采用确定性执行模型,在推理Llama2-70B时达成250 tokens/sec的单卡吞吐,时延波动小于±1.5%。   四、内存革命:从显存扩展到底层介质创新  突破显存墙的关键技术路径:  - **计算存储融合**:Samsung的**HBM-PIM**芯片在内存单元集成3000个计算核心,矩阵乘加操作能效比提升28倍  - **非易失内存编程模型**:Intel的**Optane DIMM**配合PMDK库,实现模型参数持久化存储,恢复训练时间从小时级降至分钟级  - **梯度压缩传输**:华为的**HiCOOM**协议使用3D-SPHINX编码,在昇腾集群中梯度通信效率提升5.8倍  学术界突破:UC Berkeley的**ZeRO∞-HD**方案通过异构内存分页技术,在单节点支持260B参数训练,显存占用仅31GB。   五、多模态推理加速:跨引擎联合优化  跨模态场景的端到端优化方案:  1. **跨引擎流水线**:NVIDIA的**Picasso**框架统一CUDA与DLA加速器,在Stable Diffusion XL推理中实现23it/s的吞吐  2. **模态感知调度**:微软**Babel**系统通过运行时特征分析,自动分配视觉/语音模态到对应加速单元,延迟降低44%  3. **统一张量表示**:Apache TVM的**Unity IR**支持跨框架张量格式转换,在多模态模型部署中减少序列化开销67%  生物计算突破:DeepMind的**AlphaFold3**采用几何张量网络,在蛋白质-核酸复合体预测中RMSD误差降至0.89Å,推理速度较v2提升3倍。   六、软硬协同新范式:从芯片到算法的垂直整合  2024年技术融合趋势:  - **存算一体架构**:Tesla Dojo 2.0集成1.2亿个SRAM计算单元,支持4D张量原位计算,能效比达102 TFLOPS/W  - **光子矩阵引擎**:Lightelligence的**OptiCore**光子芯片在矩阵乘法任务中实现1.3 POPS/mm²的面积效率  - **可微分硬件**:Tenstorrent的**Grayskull-2**芯片支持反向传播硬件加速,训练ResNet-152速度达A100的2.3倍  学术界新方向:Stanford的**Algorithm-Architecture Co-Design**方法论,在DNA序列预测任务中实现算法精度与硬件效率同步提升80%。  七、技术演进图谱:2025前瞻性技术布局  1. **量子神经网络**:IBM Quantum的**QNN-Hybrid**架构在量子退火机上实现128qubit梯度计算  2. **神经形态计算**:Intel Loihi 3芯片模拟生物神经元动态,在脉冲神经网络训练中能效比达350 TOPS/W  3. **分子级三维集成**:TSMC的3DSoIC技术实现1μm间距芯片堆叠,计算密度突破1000 TOPS/mm³  当前技术竞争已进入全栈深度整合阶段,开发者需构建覆盖算法创新、编译器优化、芯片架构的立体知识体系。建议重点关注**计算-存储-通信三角定律**的平衡设计,这是下一代大模型基础设施的核心突破点。   #大模型#  #模型部署#
点赞 评论 收藏
分享
评论
10
38
分享

创作者周榜

更多
牛客网
牛客企业服务