咨询cuda中warp level parallelism

最近在学cuda矩阵乘法的优化,其中有个warp level parallelism的优化,大概的原理是增加一个warp中访存的密集型,不知道这么做是不是可以减少共享内存的bank  conflict ,有大佬知道原理的吗,或者有那本书里或者视频里提到这个,能推荐一下吗?#HPC高性能计算工程师##C/C++#
全部评论
一个warp计算的C子矩阵又方又好吧。32,64的要优于16,128的。计算量一样,但访存会降些。
点赞 回复 分享
发布于 2022-01-26 16:05

相关推荐

头像
10-09 19:35
门头沟学院 Java
洛必不可达:java的竞争激烈程度是其他任何岗位的10到20倍
点赞 评论 收藏
分享
喜欢走神的孤勇者练习时长两年半:池是池,发是发,我曾池,我现黑
点赞 评论 收藏
分享
点赞 2 评论
分享
牛客网
牛客企业服务