CUDA面经

实习和秋招都面了一些高性能计算的岗,分享一点被问过的cuda八股
SIMT是什么
occupancy和什么有关,怎么控制
bank conflict粒度
GEMM分块大小受什么影响
float4读写gmem为什么更快
block能否被调度到不同sm上
常用卡的cache是多大
divergency对性能的影响
nvidia gpu的指令级并行
手撕矩阵转置
手撕向量外积
全部评论
大佬,这个赛道很卷吗?
3 回复 分享
发布于 2023-09-21 15:00 上海
感谢楼主分享,所以float4为什么会更快呀,这点一直挺困惑的
2 回复 分享
发布于 2023-09-04 12:59 上海
市面上会cuda的应该很少吧,感觉lz挺好找工作的?
2 回复 分享
发布于 2023-09-08 14:13 上海
楼主拿到哪家的offer了吗
1 回复 分享
发布于 2023-09-04 14:03 广东
大佬点技能树的时候,会学tvm推理引擎,训练框架这些吗
1 回复 分享
发布于 2023-09-17 10:06 山西
请问下大佬,面高性能计算岗,cuda的话怎样的项目算是比较有含金量
点赞 回复 分享
发布于 2023-09-06 00:15 广东
m
点赞 回复 分享
发布于 2023-09-06 21:37 江苏
mark
点赞 回复 分享
发布于 2024-05-13 15:05 上海

相关推荐

02-27 23:36
已编辑
华东理工大学 前端工程师
ieg游戏数据部门  无手撕 全程项目+八股(1h)1. 项目拷打 项目中公共组件如何复用的,具体复用过程2. Vue3相对Vue2做了哪些改善,加了什么特性3. Vue3引进setup,目的是啥,解决了什么问题,与Vue2写起来的差异4. Vue如何实现响应式 ref对象值修改,为什么页面会跟着刷新5. 项目中Echarts可视化做了什么6. SVG和Canvas渲染引擎的区别7. 鼠标悬停实现tooltip交互时,Canvas和SVG在事件处理的区别8. Al相关的工具使用9. ES箭头函数的作用域10. js原型链的继承怎么实现,继承的目的是为了解决了什么问题11. js同步异步执行的区别,调度过程12. 宏任务微任务的区别,为什么要区分这两13. 场景题,口述如何实现三栏布局14. flex:1 1 0 分别代表啥意思15. 项目中处了图片懒加载还做了什么性能优化?16. 对JS,CSS静态资源大小的优化怎么处理?17. 定制过webpack插件吗18. 项目如何部署19. 前后端通信,如何预防XSS和SQL注入问题20. TCP/UDP区别21. 为什么HTTPS安全上做的更好,怎么保障安全性的?22. 你对什么前端方向感兴趣?23. 最近有阅读过技术文章吗面完到现在还是显示初试中,也没通知过没过,有兄弟一样的情况吗 #前端#  #腾讯#  #实习#
查看23道真题和解析
点赞 评论 收藏
分享
组内直招,我给自己捞一下实习生联系方式****************************职位描述1、负责机器学习训练和推理系统的研发与性能优化,包括但不限于:超大模型计算性能优化、千卡训练集群调优、分布式推理系统、大规模推理流量调度等;2、负责解决大规模AI系统中高并发、高可靠性、高可扩展性等技术难关,支撑公司内外千万客户流量需求;3、负责大模型训练和推理前瞻性技术架构的调研和引入,技术方案不限于分布式训推系统、子图匹配、编译优化、模型量化等;4、负责异构硬件的引入与训练推理框架的集成,包括但不限于GPU、NPU、TPU等;5、面向全球多地域超大规模GPU算力集群,通过弹性调度、GPU 超卖、任务编排等方式不断提升算力利用率;6、与算法部门深度合作,分析性能瓶颈,通过软硬结合提升模型训推效率,支持AI工具链和技术生态建设,推动公司AI关键业务发展。职位要求1、2026届本科及以上学历在读,计算机、软件工程等相关专业优先;2、熟悉常见的算法、设计模式和数据结构,具备扎实的操作系统、计算机体系结构等知识;3、独立分析问题和解决问题,自我驱动并对过程负责;4、以下条件为加分项:1)能够理解GPU硬件架构,熟悉GPU软件栈(CUDA,cuDNN),具备GPU性能分析的经验;2)参与机器学习系统开源社区项目经验,熟悉机器学习系统各项流程中的工作原理;3)有至少一种大模型训练/推理框架使用经验,包括但不限于:vLLM、TensorRT-LLM、SGLang、Megatron-LM等。
投递抖音信息等公司10个岗位
点赞 评论 收藏
分享
评论
19
199
分享

创作者周榜

更多
牛客网
牛客企业服务