回答編集履歴
2
日本語の修正
test
CHANGED
@@ -10,7 +10,7 @@
|
|
10
10
|
|
11
11
|
|データパラレル|全GPUで同じモデルを共有して、分割したバッチデータを学習|高速化(概算:性能+60[%/台])|バッチサイズが上がると精度も落ちやすい(要:学習率等での帳尻合わせ)|
|
12
12
|
|
13
|
-
|ネットワークパラレル|GPU毎に分割したモデルを共有して、同じデータを学習|巨大なネットワーク(高解像度)に対応|恐らく設定が困難|
|
13
|
+
|モデルパラレル~~ネットワークパラレル~~|GPU毎に分割したモデルを共有して、同じデータを学習|巨大なネットワーク(高解像度)に対応|恐らく設定が困難|
|
14
14
|
|
15
15
|
|
16
16
|
|
@@ -22,7 +22,7 @@
|
|
22
22
|
|
23
23
|
データパラレルの場合、推論時には学習時ほどのデータは裁かないと思いますので、それほど複数GPUにするメリットはないのではないでしょうか?条件にもよるかと思いますが、GPUでやっていたことをCPUで処理させると10倍程度は時間がかかると思いますので、GPUはあった方が良いと思います。
|
24
24
|
|
25
|
-
ネットワークパラレルの場合、複数GPUでないと動かない状態になるかと思いますので、動かすためには必須となります。
|
25
|
+
モデルパラレル~~ネットワークパラレル~~の場合、複数GPUでないと動かない状態になるかと思いますので、動かすためには必須となります。
|
26
26
|
|
27
27
|
|
28
28
|
|
1
補足
test
CHANGED
@@ -20,7 +20,7 @@
|
|
20
20
|
|
21
21
|
**Q2: テスト段階にもGPUが役立つか?**
|
22
22
|
|
23
|
-
データパラレルの場合、推論時には学習時ほどのデータは裁かないと思いますので、それほどメリットはないのではないでしょうか?
|
23
|
+
データパラレルの場合、推論時には学習時ほどのデータは裁かないと思いますので、それほど複数GPUにするメリットはないのではないでしょうか?条件にもよるかと思いますが、GPUでやっていたことをCPUで処理させると10倍程度は時間がかかると思いますので、GPUはあった方が良いと思います。
|
24
24
|
|
25
25
|
ネットワークパラレルの場合、複数GPUでないと動かない状態になるかと思いますので、動かすためには必須となります。
|
26
26
|
|