回答率: 85.30%

質問するログイン新規登録

トップ CUDAに関する質問 CUDAのスレッド/ブロック数の決め方について

編集履歴

回答編集履歴

2

追記

2020/06/25 05:17

投稿

スコア16612

test CHANGED Viewed

@@ -25,3 +25,5 @@
 ことが望まれますが、メモリ転送をPythonでどこまで制御できるかは僕はわからんですごめんなさい。
 ※ 僕はC++でベタ書きするのでメモリ転送のタイミングは僕次第
+※ とはいえこのテのことを考慮してると(さくさく書けるってゆー)Pythonのウマミがなくなりますよねー

1

追記

2020/06/25 05:17

投稿

スコア16612

test CHANGED Viewed

@@ -7,3 +7,21 @@
 が示すとおり、blockあたりのthread数は最大1024です。
 また、threadの実行効率考慮するとblockあたりのthread数は2のベキ(1024, 512, 256...)が望まれます。
+CUDAを使った時パフォーマンスを落とす大きな要因はデバイス(GPU)とホスト(CPU)間のメモリ転送。
+これを極力減らす(CPU/GPU間を行ったり来たりしない)、つまり
+- 計算に必要な領域はまとめてGPUに転送しておき
+- 一気にまとめて実行し
+- 最後に結果をCPUに引き戻す
+ことが望まれますが、メモリ転送をPythonでどこまで制御できるかは僕はわからんですごめんなさい。
+※ 僕はC++でベタ書きするのでメモリ転送のタイミングは僕次第