cupyが機能していることを確認する方法

Cupyの導入を検討していて、試しに手元の環境GTX-750でcupyのサンプルプログラムを動かしてみました。

Mnistを学習させるやつで学習は５分くらいで終了しました。ただ、実行中いつもと違うファンが動いている気はしたのですが、体感そんなに変化がなくちゃんと並列処理できているの疑問に感じました。

Numpyで行っていた行列計算もやらせたのですが、与えた行列が小さいためか、必ずcupyで実行したほうが数秒遅いという結果になりました。

nvidia-smiで確認した実行中のGPUの様子はこんな感じです。

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 384.130                Driver Version: 384.130                   |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GTX 750 Ti  Off  | 00000000:03:00.0  On |                  N/A |
| 22%   32C    P8     1W /  38W |    226MiB /  1995MiB |      6%      Default |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|    0      1075      G   /usr/lib/xorg/Xorg                           130MiB |
|    0      2553      G   compiz                                        89MiB |
|    0      3387      G   unity-control-center                           1MiB |
+-----------------------------------------------------------------------------+

どうすればちゃんと動いているって確証を得られますが、まだ導入するか決めかねている（扱うでデータが小さくバッチ化していないので恩恵が・・・）のでサックとわかる方法が知りたいです。

退会済みユーザー

2019/05/13 09:23

GPUで動作していることは実行中に`nvidia-smi -l`とかを見てればなんとなく分かると思います。ちゃんと確認するなら/proc/{pid}/mapにlibcuda.soとlibcudnn.soがあるかもしれません。パフォーマンスが出ることを確認したいのなら、100万*100万くらいの行列で何かしらelement-wiseな計算をやれば充分体感できると思います。ただ、mnistで体感できないのはちょっと気になりますね。

picker413

2019/05/14 04:21 編集

サンプルプログラムでnvidia-smi -lを試したところfunもmemoryも変化がなくproocessの欄も実行前と実行後に変化がありませんでした。ご指摘通り大きめのランダムの行列をnumpyとcupyで計算したところ確かに積の計算が早くなりprosessにもjob番号が出てきたのでcupyの問題というよりはサンプルコードの問題だと思います。 mnistを使う予定はないのでこれで良しとします。ありがとうございました。

行動規範の内容に同意します

回答1件

自己解決

python
1import numpy as np
2import chainer
3import cupy as cp
4import time
5
6n = 2000
7t1 = time.time()
8a = np.random.rand(n,n)
9b = np.random.rand(n,n)
10np.dot(a,b)
11t2 = time.time()
12a = cp.random.rand(n,n)
13b = cp.random.rand(n,n)
14cp.dot(a,b)
15t3 = time.time()
16print ('np:',t2-t1)
17print ('cp:',t3-t2)