快 STAR 大模型应用面经

一开始会以为问的很难,然后还是集中在项目,八股也比较常见,虽然问的还挺深,我没答出来很多。
1. 先写题,dp, 两个字符串最长子序列
2.自我介绍
3. 挖项目挖了很久
4.peft 微调介绍一下
5. 常见的位置编码介绍一下
6.transformer 的 decoder 和 llama 有啥区别
7. 他们的位置编码有啥区别? 三角函数位置编码和 ROPE 公式很像啊,他们是怎么实现不同的功能?(一个加 embedding 一个加 KQV,但是公式很像但是推理完全不一样吧,不太会答)
8. ADAM 比 SGD 优化在哪里(不会,没背这块)介绍一下梯度下降
9. 回归任务常用的 LOSS(我还搞成了自回归,然后说现在大模型都是用交叉熵。。。后面反应过来说离散分类任务交叉熵,连续值用 MSE)然后问我二分类用什么,我说 BCE。
10. 用 ADAM 的话,怎么预估 SFT 的显存占用?(这个问题好高频啊,感觉现在很喜欢问这种预估显存占用的问题。。。,我也没怎么回答,不太会)
时间太久了,就随便反问了一下。
全部评论
当作面试一样回答一下这些问题: 1. 子序列两层for循环,if s[i] == s[j]: dp[i][j] = dp[i - 1][j - 1] + 1 else : dp[i][j] = max(dp[i - 1][j], dp[i][j - 1]) 2. xx 3.xx 4. lora, p tuning v1 v2, adapter tuning, prefix tuning. 5. 绝对,相对位置编码, Rope旋转位置编码 6. 从输入开始,一个是绝对位置编码一个是Rope编码。经过embedding层后,transformer decoder直接输入注意力层,而llama则是先经过norm,一个是Post norm一个是Pre norm,同时norm这里的区别前者为layer norm后者为Root mean square norm,对于注意力层,llama是GQA而transformer decoder是MHA,再经过FFN层,FFN层的激活函数transformer deocder是Relu,而llama没记错的话是SwiGelu,(就想到这些,不知道还有没有不同) 7. 不知怎么答 8. SGD , w = w - lr * gradient, Adam引入了一阶动量与二阶动量(方差) 9. 交叉熵损失 10. 假设dB参数的大模型,模型与梯度半精度fp16保存,一个参数两个字节,则占用2d G + 2d G = 4d G显存,优化器如果用adam,fp32保存模型权重备份,动量与方差,则占用3 * 4 * d G = 12d G显存,对一个dB参数的大模型做full training显存占用估计在16dG。(deepspedd, 模型并行,张量并行之类的可能会继续问了) 欢迎补充点评
3 回复 分享
发布于 2024-08-14 14:32 广东
还问了 attention 公式,为什么要除以根号 dk,为什么会发生梯度消失或者梯度爆炸?(就是经常被问但是答不好)
2 回复 分享
发布于 2024-08-08 01:56 江西
大佬真厉害
2 回复 分享
发布于 2024-08-10 09:00 江苏
这个确实强
2 回复 分享
发布于 2024-08-10 10:32 江苏
周五也要面快star了
1 回复 分享
发布于 2024-08-07 21:43 北京
参加的都是大神云集
1 回复 分享
发布于 2024-08-10 16:13 江苏
Adam结合了动量和RMSProp,可以对参数进行自适应的学习率调整,训练初期收敛更快。SGD需要手动调整学习率,在最小值平坦区域收敛变慢(摘抄自CSDN)
1 回复 分享
发布于 2024-08-19 16:24 北京
是线上IDE还是本地呢,题目的话是会给图片还是念呢
点赞 回复 分享
发布于 2024-08-08 10:30 北京
八股还是要好好准备,一知半解不太行,被挂了。
点赞 回复 分享
发布于 2024-08-08 15:27 河南
佬很厉害了,能求个快star进面的bg么
点赞 回复 分享
发布于 2024-08-09 09:25 浙江

相关推荐

一、训练范式革新:动态计算图与自适应优化  传统静态计算图难以应对大模型复杂计算流,2023年技术突破集中在:  1. **即时编译(JAX+XLA)**:Google的**JAXformer**框架通过动态分区策略,在TPUv4集群上实现92%的计算资源利用率,较PyTorch静态图提升37%  2. **梯度累积重参数化**:Meta的**GradRewrite**技术利用张量重映射算法,在OPT-175B训练中减少梯度同步次数58%,通信开销下降42%  3. **自适应混合精度**:NVIDIA的**APEX Dynamic**方案实时监控梯度幅值,动态切换FP8/FP16精度模式,在BERT-large训练中节约显存39%  前沿进展包括**符号微分加速器(SDA)**,如Cerebras的CS-3芯片内置微分引擎,在求解Jacobian矩阵时实现100倍于GPU的加速比。MIT提出的**Progressive Token Dropping**策略,通过重要性采样提前丢弃低贡献token,在ViT-22B训练中节省23% FLOPs。   二、分布式训练体系:异构硬件的统一抽象  跨设备训练面临内存一致性难题,最新解决方案涵盖:  - **统一内存地址空间**:AMD的**Unified Memory Fabric**技术突破PCIe瓶颈,在MI300X集群实现1.5TB/s的GPU-GPU直连带宽  - **异步流水线并行**:DeepMind的**PipeDream-2BW**采用双缓冲机制,在128节点集群中流水线气泡率降至4.2%  - **动态负载均衡**:阿里云**ODPS-Mars**系统通过实时性能建模,在混合GPU/CPU集群中提升任务调度效率31%  工业界标杆案例:字节跳动**Volcano Engine**采用**分层参数服务器**架构,支持万亿参数模型训练,通过稀疏梯度聚合算法将通信量压缩至原始值的6.7%。   三、推理引擎设计:编译优化与硬件感知  模型服务面临编译器优化天花板,突破性技术包括:  1. **计算图手术(Graph Surgery)**:TensorRT-9.0引入动态OP融合策略,针对LLaMA-70B实现41%延迟降低  2. **硬件感知量化**:Qualcomm的**AIMET 2.0**工具链通过芯片级指令分析,在Snapdragon 8 Gen3实现INT4量化下98.2%精度保留  3. **即时内核生成**:OpenAI的**Triton 3.0**编译器支持动态模板扩展,在A100上实现FlashAttention-V2的2.7倍加速  创新案例:Groq的**LPU架构**采用确定性执行模型,在推理Llama2-70B时达成250 tokens/sec的单卡吞吐,时延波动小于±1.5%。   四、内存革命:从显存扩展到底层介质创新  突破显存墙的关键技术路径:  - **计算存储融合**:Samsung的**HBM-PIM**芯片在内存单元集成3000个计算核心,矩阵乘加操作能效比提升28倍  - **非易失内存编程模型**:Intel的**Optane DIMM**配合PMDK库,实现模型参数持久化存储,恢复训练时间从小时级降至分钟级  - **梯度压缩传输**:华为的**HiCOOM**协议使用3D-SPHINX编码,在昇腾集群中梯度通信效率提升5.8倍  学术界突破:UC Berkeley的**ZeRO∞-HD**方案通过异构内存分页技术,在单节点支持260B参数训练,显存占用仅31GB。   五、多模态推理加速:跨引擎联合优化  跨模态场景的端到端优化方案:  1. **跨引擎流水线**:NVIDIA的**Picasso**框架统一CUDA与DLA加速器,在Stable Diffusion XL推理中实现23it/s的吞吐  2. **模态感知调度**:微软**Babel**系统通过运行时特征分析,自动分配视觉/语音模态到对应加速单元,延迟降低44%  3. **统一张量表示**:Apache TVM的**Unity IR**支持跨框架张量格式转换,在多模态模型部署中减少序列化开销67%  生物计算突破:DeepMind的**AlphaFold3**采用几何张量网络,在蛋白质-核酸复合体预测中RMSD误差降至0.89Å,推理速度较v2提升3倍。   六、软硬协同新范式:从芯片到算法的垂直整合  2024年技术融合趋势:  - **存算一体架构**:Tesla Dojo 2.0集成1.2亿个SRAM计算单元,支持4D张量原位计算,能效比达102 TFLOPS/W  - **光子矩阵引擎**:Lightelligence的**OptiCore**光子芯片在矩阵乘法任务中实现1.3 POPS/mm²的面积效率  - **可微分硬件**:Tenstorrent的**Grayskull-2**芯片支持反向传播硬件加速,训练ResNet-152速度达A100的2.3倍  学术界新方向:Stanford的**Algorithm-Architecture Co-Design**方法论,在DNA序列预测任务中实现算法精度与硬件效率同步提升80%。  七、技术演进图谱:2025前瞻性技术布局  1. **量子神经网络**:IBM Quantum的**QNN-Hybrid**架构在量子退火机上实现128qubit梯度计算  2. **神经形态计算**:Intel Loihi 3芯片模拟生物神经元动态,在脉冲神经网络训练中能效比达350 TOPS/W  3. **分子级三维集成**:TSMC的3DSoIC技术实现1μm间距芯片堆叠,计算密度突破1000 TOPS/mm³  当前技术竞争已进入全栈深度整合阶段,开发者需构建覆盖算法创新、编译器优化、芯片架构的立体知识体系。建议重点关注**计算-存储-通信三角定律**的平衡设计,这是下一代大模型基础设施的核心突破点。   #大模型#  #模型部署#
点赞 评论 收藏
分享
评论
24
70
分享

创作者周榜

更多
牛客网
牛客企业服务