回答率: 85.36%

質問するログイン新規登録

トップ CUDAに関する質問 CUDA(GPU)について

編集履歴

回答編集履歴

4

メモリについて正確な表記に変更

2019/09/23 17:10

投稿

スコア10

test CHANGED Viewed

@@ -48,7 +48,7 @@
 理論上そうなります。できるだけこの処理リソースを生かす方が処理は早くなります（Occupancyを100%に近くする）
-しかし実際にはそうはなりません。というのも，最近のCUDAの実行速度のほとんどがメモリアクセス時間であるため，少し凝った処理をしようとすると，1 blockに対し1024 threadではすぐにレジスタやキャッシュを使い切り，グローバルメモリにローカル変数が確保されてしまい，結局遅くなります
+しかし実際にはそうはなりません。というのも，最近のCUDAの実行速度のほとんどがメモリアクセス時間であるため，少し凝った処理をしようとすると，1 blockに対し1024 threadではすぐにレジスタとL1キャッシュを使い切り，オフチップであるL2キャッシュにローカル変数が確保されてしまい，結局遅くなります
 なので，目安としては1 block に対し， 256 thread か，512 threadと言われています

3

warpSizeについての補足の追加

2019/09/23 17:10

投稿

スコア10

test CHANGED Viewed

@@ -40,6 +40,8 @@
 やっていることは前半のwarpに奇数の処理を，後半のwarpに偶数の処理を割り当てています。warp間は非同期で進行するので，thread間でのifの待機がなくなり，結果１つ目より早く進行します
+ちなみに，32というマジックナンバーがどうしても気に入らなければ，warpSizeという予約変数がありますので，書き換えてもよいですが，今のところGPUによって変わらないので32で問題なさそうです
 ### 2について

2

warpIdxの条件分岐の修正

2019/09/19 13:03

投稿

スコア10

test CHANGED Viewed

@@ -32,7 +32,7 @@
-if warpIdx is 1: array[2*laneIdx+1] = 1
+if warpIdx is 0: array[2*laneIdx+1] = 1
 else: array[2*laneIdx] = 0

1

誤字の修正

2019/09/19 12:54

投稿

スコア10

test CHANGED Viewed

@@ -38,7 +38,7 @@
 ```
-やっていることは前半のwarpに奇数の処理を，後半のwarpに偶数の処理を割り当てています。warpp間は非同期で進行するので，thread間でのifの待機がなくなり，結果１つ目より早く進行します
+やっていることは前半のwarpに奇数の処理を，後半のwarpに偶数の処理を割り当てています。warp間は非同期で進行するので，thread間でのifの待機がなくなり，結果１つ目より早く進行します