質問編集履歴

コードの修正

2020/03/15 09:11

投稿

shukrin

スコア14

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -50,9 +50,12 @@
 	float* a, * b, * c, * d_a, * d_b, * d_c;
 	//ホスト側の配列を用意
-	a = (float*)malloc(N * sizeof(float));
+	//a = (float*)malloc(N * sizeof(float));
-	b = (float*)malloc(N * sizeof(float));
+	//b = (float*)malloc(N * sizeof(float));
-	c = (float*)malloc(N * sizeof(float));
+	//c = (float*)malloc(N * sizeof(float));
+	cudaMallocHost(&a, N * sizeof(float));
+	cudaMallocHost(&b, N * sizeof(float));
+	cudaMallocHost(&c, N * sizeof(float));
 	//デバイス側の配列を用意
 	cudaMalloc(&d_a, N * sizeof(float));
@@ -68,40 +71,57 @@
 	//時間計測開始
 	std::chrono::system_clock::time_point start, memcpyh2d, memcpyd2h, gpus, gpue, cpu;
-	start = std::chrono::system_clock::now();
 	std::cout << "-----TimeStart-----" << std::endl;
-	//ホスト側の配列の内容をデバイス側にコピー
+	for (int i = 0; i < 10; i++) {
-	cudaMemcpy(d_a, a, N * sizeof(float), cudaMemcpyHostToDevice);
-	cudaMemcpy(d_b, b, N * sizeof(float), cudaMemcpyHostToDevice);
-	cudaMemcpy(d_c, c, N * sizeof(float), cudaMemcpyHostToDevice);
-	//ホストの配列をデバイス側にコピーするのにかかった時間
-	memcpyh2d = std::chrono::system_clock::now();
+		start = std::chrono::system_clock::now();
-	//スレッドの設定
+		//ホスト側の配列の内容をデバイス側にコピー
+		cudaMemcpy(d_a, a, N * sizeof(float), cudaMemcpyHostToDevice);
-	int blocksize = 512;
+		cudaMemcpy(d_b, b, N * sizeof(float), cudaMemcpyHostToDevice);
+		cudaMemcpy(d_c, c, N * sizeof(float), cudaMemcpyHostToDevice);
-	//ブロックあたりのスレッド数（blocksize)を512、
+		//ホストの配列をデバイス側にコピーするのにかかった時間
-	//ブロックの総数（gridsize）をN/512用意する
-	//したがって総スレッド数は blocksize × gridsize = N 個
-	dim3 block(blocksize, 1, 1);
-	dim3 grid(N / block.x, 1, 1);
+		memcpyh2d = std::chrono::system_clock::now();
-	//GPUの計算時間計測開始
+		//スレッドの設定
-	gpus = std::chrono::system_clock::now();
+		int blocksize = 256;
-	// カーネル関数の呼び出し
+		//ブロックあたりのスレッド数（blocksize)を512、
+		//ブロックの総数（gridsize）をN/512用意する
-	vec_sum_k <<<grid, block>>>(2.0f, d_a, d_b, d_c);
+		//したがって総スレッド数は blocksize × gridsize = N 個
-	cudaDeviceSynchronize();
+		dim3 block(blocksize, 1, 1);
+		dim3 grid(N / block.x, 1, 1);
-	//GPUの計算時間計測終了
+		//GPUの計算時間計測開始
-	gpue = std::chrono::system_clock::now();
+		gpus = std::chrono::system_clock::now();
-	//計算結果をホストへコピー
+		// カーネル関数の呼び出し
-	cudaMemcpy(c, d_c, N * sizeof(float), cudaMemcpyDeviceToHost);
+		vec_sum_k << <grid, block >> > (2.0f, d_a, d_b, d_c);
+		cudaDeviceSynchronize();
+		//GPUの計算時間計測終了
+		gpue = std::chrono::system_clock::now();
+		//計算結果をホストへコピー
+		cudaMemcpy(c, d_c, N * sizeof(float), cudaMemcpyDeviceToHost);
+		//計算結果をホストにコピー。GPUの計算終わり。
+		memcpyd2h = std::chrono::system_clock::now();
+		// 計測時間の表示
+		std::cout << "-------GPULoop: " << i << " -------" << std::endl;
+		double HtDtime = static_cast<double>(std::chrono::duration_cast<std::chrono::microseconds>(memcpyh2d - start).count());
+		std::cout << "memcpy(HtD): " << HtDtime << " microsec" << std::endl;
+		double gputime = static_cast<double>(std::chrono::duration_cast<std::chrono::microseconds>(gpue - gpus).count());
+		std::cout << "gpu: " << gputime << " microsec" << std::endl;
+		double DtHtime = static_cast<double>(std::chrono::duration_cast<std::chrono::microseconds>(memcpyd2h - gpue).count());
+		std::cout << "memcpy(DtH): " << DtHtime << " microsec" << std::endl;
+	}
-	//計算結果をホストにコピー。GPUの計算終わり。CPUの計算時間計測開始
+	//計算結果をホストにコピー。GPUの計算終わり。CPUの計算開始
 	memcpyd2h = std::chrono::system_clock::now();
 	vec_sum_c(2.0f, c, a, b);
@@ -116,12 +136,7 @@
 	std::cout << "MaxError: : " << maxError << std::endl;
 	//計測時間の表示
-	double HtDtime = static_cast<double>(std::chrono::duration_cast<std::chrono::microseconds>(memcpyh2d - start).count());
-	std::cout << "memcpy(HtD): " << HtDtime << " microsec" << std::endl;
-	double gputime = static_cast<double>(std::chrono::duration_cast<std::chrono::microseconds>(gpue - gpus).count());
-	std::cout << "gpu: " << gputime << " microsec" << std::endl;
+	std::cout << "-------CPU-------" << std::endl;
-	double DtHtime = static_cast<double>(std::chrono::duration_cast<std::chrono::microseconds>(memcpyd2h - gpue).count());
-	std::cout << "memcpy(DtH): " << DtHtime << " microsec" << std::endl;
 	double cputime = static_cast<double>(std::chrono::duration_cast<std::chrono::microseconds>(cpu - memcpyd2h).count());
 	std::cout << "cpu: " << cputime << " microsec" << std::endl;

タイトルの修正

2020/03/15 09:11

投稿

shukrin

スコア14

title CHANGED Viewed

	@@ -1,1 +1,1 @@
1	- 【CUDA】cudaMemcpyに時間がかかり~~思ったほど~~速度が出ないときの対処法
1	+ 【CUDA】cudaMemcpyに時間がかかり速度が出ないときの対処法

body CHANGED Viewed

File without changes

コードの修正

2020/03/14 17:53

投稿

shukrin

スコア14

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -32,7 +32,7 @@
 void vec_sum_c(float k, float c[], float a[], float b[]) {
 	for (int i = 0; i < N; i++) {
-		c[0] = k * a[i] + b[i];
+		c[i] = k * a[i] + b[i];
 	}
 }

「実現したいこと」を一部修正

2020/03/14 17:48

投稿

shukrin

スコア14

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -141,7 +141,7 @@
 ### 実現したいこと
 メモリコピーの時間を含めてCPUより高速で動作するようなCUDAプログラムを作成するためにはどのような方法があるでしょうか？
-また計算自体は高速化されているとはいえ、期待したほど(十倍~数百倍以上)ではないのも気になります。計算の高速化のためにはどのような工夫ができるでしょうか？
+また計算自体は高速化されているとはいえ、期待したほど(十倍~数百倍以上)ではないのも気になります。上記サイトの結果では少なくとも3000倍の高速化に成功していたようです。私のプログラムがそれほど高速化されていない理由は何でしょうか？　また計算の高速化のためにはどのような工夫ができるでしょうか？
 ### 補足情報（FW/ツールのバージョンなど）