求问,大模型推理加速怎么系统的学习
如题,目前是做大模型的,主要做方法上的创新。但是个人很喜欢底层的一些技术,想系统学习一下推理加速这些mlsys的内容和研究。马上也要读博了,老师比较放养,研究方向可以根据自己的兴趣来。有没有大佬指点一下,这些偏底层的研究方向怎么入门。
全部评论
先掌握transformer的架构,然后知道推理的整体的参数情况和开销(包括推理的时候在GPU那部分的计算,通信开销),接着去看各个大模型的架构,比如mqa,gqa,moe,mla的修改,后面看flash attention,稀疏注意力相关的内容,还有什么批推理加速之类的。一个更好的方法是去看项目,让你导师给你几个项目这样会比较有头绪。
找个科研实习?
相关推荐