Megatron-lm 计算tp值

给定模型参数:
模型层数l
模型维度d_model
输入长度seq_len
注意力头head

怎么计算tp
全部评论
感觉是和注意力头有关 求答案🤔
点赞 回复 分享
发布于 04-14 00:47 北京
在不开GQA和TP的情况下,如果是llama,那么d/h=128,只开TP的情况下,d/h'*tp_size=128
点赞 回复 分享
发布于 07-22 10:00 北京

相关推荐

不愿透露姓名的神秘牛友
12-18 20:54
已编辑
点赞 评论 收藏
分享
评论
3
收藏
分享
牛客网
牛客企业服务