秋招总结

背景:双非本211硕 

编程语言 c++ cuda python

方向是 AI工程开发 算子开发 模型训练推理优化 AI编译器 深度学习框架开发

目标行业 互联网 半导体

oc

深势科技 高性能计算

浙江大华 算法移植

集创北方(集郎)AI编译器

星临科技 大模型训练推理优化

唯品会  大模型训练推理优化

元象唯思 大模型训练推理优化

soul 大模型训练推理优化

华为 AI工程师 2012中软

小米 AI编译器

美图秀秀 高性能计算

大疆车载 机器学习算法工程师

科大讯飞 算法工程师 AI框架方向


总结

一. 算法加速的工作相对来说不会像纯算法岗那么注重学历论文,本人无论文无专利 。薪酬对齐算法岗,注重相关领域的经验和基础知识

二.半导体公司给予面试机会比较少,主要是AI开发, AI编译器相关岗位。今年是互联网回暖,但是半导体比起去年缩招了。今年是大模型元年,相关的岗位开的比较多,但是hc数量依然很少。

三.算法加速倾向于开发方向,对于c++和cuda基础比较重视,适合有深度学习背景的同学

#24秋招求职节奏总结#
全部评论
楼主牛呀 想请问楼主有什么实习吗
2 回复 分享
发布于 2023-11-30 08:42 广东
佬,感觉元象怎么样呀?刚oc了
2 回复 分享
发布于 2023-12-19 18:07 江苏
刷到本校的大佬了,大佬好厉害啊
1 回复 分享
发布于 2024-03-22 13:32 黑龙江
大佬,请问你感觉推理加速方向hc和传统cv算法岗hc数目比怎样?如果有论文会不会是加分项?还有想问下AI开发是更偏向嵌入式吗?小白求教
1 回复 分享
发布于 2024-05-22 16:16 湖北
佬,求一个 小米 AI编译器 的面经,马上就要面了 有点小慌
1 回复 分享
发布于 2024-07-25 11:48 香港
校友请问一下 简历上面实习详情的话都写什么😀
点赞 回复 分享
发布于 2023-12-02 20:12 北京
能求一个深势科技的面经吗,谢谢
点赞 回复 分享
发布于 2023-12-04 22:26 北京
老哥可以聊聊吗,准备去哪里?我也soul大模型推理oc
点赞 回复 分享
发布于 2023-12-05 02:33 上海
求一个元象的面经,谢谢
点赞 回复 分享
发布于 2023-12-06 18:50 上海
佬感觉星临科技怎么样呀
点赞 回复 分享
发布于 2023-12-11 23:54 江苏
楼主能介绍一下高性能岗位的学习路线吗
点赞 回复 分享
发布于 2024-01-12 08:42 美国
佬,我想问下,大模型推理优化,这方面你了解的多吗?这方面该如何入手学习呢?有没有什么参考资料
点赞 回复 分享
发布于 2024-03-14 00:49 湖北
一样的方向,请问佬最后签了哪个?
点赞 回复 分享
发布于 2024-03-27 01:15 北京
本校大佬呀,可以交流一下吗
点赞 回复 分享
发布于 2024-05-16 15:28 山东
请问项目之前是做过大模型加速的项目吗
点赞 回复 分享
发布于 2024-06-13 19:44 湖北
佬,目前在华子实习,mentor是做大模型推理加速的,mentor让我确定下后面的方向:算子开发or算法预研。我的情况是双9,但非计算机科班,c++学过但很久没用了,现在主要用python,论文在审(非计算机会议,而是期刊一区,是能源领域的算法应用类文章,但算法不是神经网络深度学习这类的)。现在不知道选哪个后续方向好,主要困惑点在于两个方向的后续发展:算子开发我比较陌生,国内提供相关岗位的公司多吗,hc情况咋样呢;算法预研的话,以我现在的条件能够在秋招找到算法岗的offer吗?听说都要会议论文和大厂实习。感谢佬读到了这里,能不能给讲讲?
点赞 回复 分享
发布于 2024-07-08 11:50 四川
活捉大佬😍😍😍
点赞 回复 分享
发布于 2024-09-19 18:02 黑龙江
可以求一下星临科技的面经嘛
点赞 回复 分享
发布于 2024-11-18 01:22 上海

相关推荐

一、训练范式革新:动态计算图与自适应优化  传统静态计算图难以应对大模型复杂计算流,2023年技术突破集中在:  1. **即时编译(JAX+XLA)**:Google的**JAXformer**框架通过动态分区策略,在TPUv4集群上实现92%的计算资源利用率,较PyTorch静态图提升37%  2. **梯度累积重参数化**:Meta的**GradRewrite**技术利用张量重映射算法,在OPT-175B训练中减少梯度同步次数58%,通信开销下降42%  3. **自适应混合精度**:NVIDIA的**APEX Dynamic**方案实时监控梯度幅值,动态切换FP8/FP16精度模式,在BERT-large训练中节约显存39%  前沿进展包括**符号微分加速器(SDA)**,如Cerebras的CS-3芯片内置微分引擎,在求解Jacobian矩阵时实现100倍于GPU的加速比。MIT提出的**Progressive Token Dropping**策略,通过重要性采样提前丢弃低贡献token,在ViT-22B训练中节省23% FLOPs。   二、分布式训练体系:异构硬件的统一抽象  跨设备训练面临内存一致性难题,最新解决方案涵盖:  - **统一内存地址空间**:AMD的**Unified Memory Fabric**技术突破PCIe瓶颈,在MI300X集群实现1.5TB/s的GPU-GPU直连带宽  - **异步流水线并行**:DeepMind的**PipeDream-2BW**采用双缓冲机制,在128节点集群中流水线气泡率降至4.2%  - **动态负载均衡**:阿里云**ODPS-Mars**系统通过实时性能建模,在混合GPU/CPU集群中提升任务调度效率31%  工业界标杆案例:字节跳动**Volcano Engine**采用**分层参数服务器**架构,支持万亿参数模型训练,通过稀疏梯度聚合算法将通信量压缩至原始值的6.7%。   三、推理引擎设计:编译优化与硬件感知  模型服务面临编译器优化天花板,突破性技术包括:  1. **计算图手术(Graph Surgery)**:TensorRT-9.0引入动态OP融合策略,针对LLaMA-70B实现41%延迟降低  2. **硬件感知量化**:Qualcomm的**AIMET 2.0**工具链通过芯片级指令分析,在Snapdragon 8 Gen3实现INT4量化下98.2%精度保留  3. **即时内核生成**:OpenAI的**Triton 3.0**编译器支持动态模板扩展,在A100上实现FlashAttention-V2的2.7倍加速  创新案例:Groq的**LPU架构**采用确定性执行模型,在推理Llama2-70B时达成250 tokens/sec的单卡吞吐,时延波动小于±1.5%。   四、内存革命:从显存扩展到底层介质创新  突破显存墙的关键技术路径:  - **计算存储融合**:Samsung的**HBM-PIM**芯片在内存单元集成3000个计算核心,矩阵乘加操作能效比提升28倍  - **非易失内存编程模型**:Intel的**Optane DIMM**配合PMDK库,实现模型参数持久化存储,恢复训练时间从小时级降至分钟级  - **梯度压缩传输**:华为的**HiCOOM**协议使用3D-SPHINX编码,在昇腾集群中梯度通信效率提升5.8倍  学术界突破:UC Berkeley的**ZeRO∞-HD**方案通过异构内存分页技术,在单节点支持260B参数训练,显存占用仅31GB。   五、多模态推理加速:跨引擎联合优化  跨模态场景的端到端优化方案:  1. **跨引擎流水线**:NVIDIA的**Picasso**框架统一CUDA与DLA加速器,在Stable Diffusion XL推理中实现23it/s的吞吐  2. **模态感知调度**:微软**Babel**系统通过运行时特征分析,自动分配视觉/语音模态到对应加速单元,延迟降低44%  3. **统一张量表示**:Apache TVM的**Unity IR**支持跨框架张量格式转换,在多模态模型部署中减少序列化开销67%  生物计算突破:DeepMind的**AlphaFold3**采用几何张量网络,在蛋白质-核酸复合体预测中RMSD误差降至0.89Å,推理速度较v2提升3倍。   六、软硬协同新范式:从芯片到算法的垂直整合  2024年技术融合趋势:  - **存算一体架构**:Tesla Dojo 2.0集成1.2亿个SRAM计算单元,支持4D张量原位计算,能效比达102 TFLOPS/W  - **光子矩阵引擎**:Lightelligence的**OptiCore**光子芯片在矩阵乘法任务中实现1.3 POPS/mm²的面积效率  - **可微分硬件**:Tenstorrent的**Grayskull-2**芯片支持反向传播硬件加速,训练ResNet-152速度达A100的2.3倍  学术界新方向:Stanford的**Algorithm-Architecture Co-Design**方法论,在DNA序列预测任务中实现算法精度与硬件效率同步提升80%。  七、技术演进图谱:2025前瞻性技术布局  1. **量子神经网络**:IBM Quantum的**QNN-Hybrid**架构在量子退火机上实现128qubit梯度计算  2. **神经形态计算**:Intel Loihi 3芯片模拟生物神经元动态,在脉冲神经网络训练中能效比达350 TOPS/W  3. **分子级三维集成**:TSMC的3DSoIC技术实现1μm间距芯片堆叠,计算密度突破1000 TOPS/mm³  当前技术竞争已进入全栈深度整合阶段,开发者需构建覆盖算法创新、编译器优化、芯片架构的立体知识体系。建议重点关注**计算-存储-通信三角定律**的平衡设计,这是下一代大模型基础设施的核心突破点。   #大模型#  #模型部署#
点赞 评论 收藏
分享
评论
27
89
分享

创作者周榜

更多
牛客网
牛客企业服务