先掌握transformer的架构,然后知道推理的整体的参数情况和开销(包括推理的时候在GPU那部分的计算,通信开销),接着去看各个大模型的架构,比如mqa,gqa,moe,mla的修改,后面看flash attention,稀疏注意力相关的内容,还有什么批推理加速之类的。一个更好的方法是去看项目,让你导师给你几个项目这样会比较有头绪。

相关推荐

牛客网
牛客企业服务