GPU高性能计算-CUDA

前段时间有个同学的毕设是搞并行计算的,他基本不懂编程把我拉过去帮忙,我之前也没弄过,帮着搞了2天。先把代码贴上去,等有时间在把详细补充一些内容。

CUDA编程主要是利用了显卡优越的并行计算能力,把一个大的任务分成很多小的单位同时执行,这样就节省了运行的时间。

1:首先要在显存中分配空间,把内存中的变量复制到其中;
GPU高性能计算-CUDAGPU高性能计算-CUDA

1 cudaMemcpy(gpu_img_1,buffer1,(img_1.w*img_1.h)*sizeof(float),cudaMemcpyHostToDevice);
2     cudaMemcpy(gpu_img_2,buffer2,(img_1.w*img_1.h)*sizeof(float),cudaMemcpyHostToDevice); 
3     clock_t start_time=clock();
4     dim3 blocks(block_num,block_num); //check  256*256;
5     dim3 threads(16,16); 
6     VAR_KERNEL<<<blocks,threads>>>(gpu_img_1,gpu_img_2,mean_1,mean_2,gpu_variance_1, gpu_variance_2, gpu_covariance);

View Code

2:要分配线程块,对于怎么分配块的大小让显卡的性能达到最优,还不是特别清楚,网络上有一些经验的数字;

下面是核函数,与C/C++代码格式略有不同,

global void VAR_KERNEL(float img_1,float img_2,float average_1,float average_2,float variance1,float variance2,float covariance)

{

int x=threadIdx.x+blockIdx.x
blockDim.x;

int y=threadIdx.y+blockIdx.yblockDim.y;

int offset=x+y
blockDim.xgridDim.x;



float pixel_1;

float pixel_2;

float temp;

pixel_1=img_1[offset];

pixel_2=img_2[offset];

temp=(pixel_1-average_1)
(pixel_1-average_1);// 计算x方差

variance1[offset]=temp;

temp=(pixel_2-average_2)(pixel_2-average_2);//计算y方差

variance2[offset]=temp;

temp=(pixel_1-average_1)
(pixel_2-average_2);

covariance[offset]=temp;// 计算协方差

}

最后,我们现在要将计算结果拷贝出来,就算完成要做的事情了。

先就这样大致的写一下,等有时间再补充。

原文链接: https://www.cnblogs.com/Arsenal2010/p/3780222.html

欢迎关注

微信关注下方公众号,第一时间获取干货硬货;公众号内回复【pdf】免费获取数百本计算机经典书籍

原创文章受到原创版权保护。转载请注明出处:https://www.ccppcoding.com/archives/134105

非原创文章文中已经注明原地址,如有侵权,联系删除

关注公众号【高性能架构探索】,第一时间获取最新文章

转载文章受原作者版权保护。转载请注明原作者出处!

(0)
上一篇 2023年2月11日 上午2:17
下一篇 2023年2月11日 上午2:23

相关推荐