7 下一个token是q,存qv cache没用。8 考虑全精度,少梯度,优化器一阶,二阶和activation 另外佬对3D和4D并行有啥经验分享吗,不知道有没有模板分法
点赞 评论

相关推荐

点赞 评论 收藏
分享
牛客网
牛客企业服务