咨询cuda中warp level parallelism

最近在学cuda矩阵乘法的优化,其中有个warp level parallelism的优化,大概的原理是增加一个warp中访存的密集型,不知道这么做是不是可以减少共享内存的bank  conflict ,有大佬知道原理的吗,或者有那本书里或者视频里提到这个,能推荐一下吗?#HPC高性能计算工程师##C/C++#
全部评论
一个warp计算的C子矩阵又方又好吧。32,64的要优于16,128的。计算量一样,但访存会降些。
点赞 回复 分享
发布于 2022-01-26 16:05

相关推荐

评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客企业服务