GPUと並列処理を行うCPUでの処理速度について。

CPUの方で0.01s単位で顔認証ならば顔がスムーズに検出出来たり、行動予測においても相手が次にどのような行動をとるかの予測が0.1s後あるいは0.01s後にわかるのであればよいです。なので、顔認証での基準は0.01sで相手が次にどのような行動をとるかの予測の基準は0.1sあるいは0.01sです。わかりにくくて申し訳ありません。

y_waiwai

2018/04/02 05:00

またおまえか案件やねーｗ

YomogiKOBO

2018/04/02 07:16

えっ。測定結果ありきの速度比較なの？、機械学習って書いていて学習速度ではなく学習済みなの？

YomogiKOBO

2018/04/02 07:18

速度測定はどういゆう条件設定（ＯＳ、画像数、ＨＤ画像？４Ｋ画像？）なのか情報追記お願いします。

carnage0216

2018/04/02 07:19

情報が少なすぎました。改めて編集いたします。

YomogiKOBO

2018/04/02 07:41

顔認証速度の記載があったけど、計測環境は閲覧者で自作しろってことですか？

行動規範の内容に同意します

回答3件

もう解決済みですが。

GPUとCPUの処理速度を議論するには、3点について理解している必要があります。

GPUとは何か
IO律速と演算律速
並列計算について

まずGPUをCPUと比較した場合ですが、GPUは大量に演算コアのある計算装置です。
CPUでは一般向けだと最近では6~8コアなども出ていますが、その程度のコアの数です。
これに対して、例えばコンシューマ向けで最高ランクまで行くとGTX1080Tiでは3584コア持っています。
これだけ演算を並列に行うことによってCPUよりも大幅にflopsを向上させることができます。
その差はこちらのwikipediaでご覧にいただけますが、
https://ja.wikipedia.org/wiki/FLOPS
GPUは、最高性能のCPUに対して2倍以上、普段使いのCPUに対して10倍ほどの性能が出ます（理論値）。
演算するコアが多いことがGPUの強みです。
それで次に考えねばならないのが行いたい計算がIO律速か演算律速かです。
なぜならGPUが速いのはコアがたくさんあって演算が速いのです。
これに対して、IO律速のプログラムを実行しても、速度の向上は全く期待できません。
GPUが有利なのは演算律速の場合です。
http://www.r-ccs.riken.jp/aicssite/wp-content/uploads/2017/05/tokuronA_17_5_katagiri.pdf
※一応IOというのはInput/Outputの略でデータの読み込み書き込みのことです。
これとは別に並列計算の実行可能性についても十分考慮しなければなりません。
よくある例えは次のようなものです。
7分でオムレツを考えた場合、100個のオムレツを作るのにかかる時間はいくらかというものです。
100個のフライパンとコンロを用意すれば7分で出来上がります。
これが理想的な並列化です。
これに対して7分で作られるべきオムレツを作るのに7個のフライパンとコンロを用意しても1分で出来上がるわけではありません。
このような並列不可能な部分も存在します。
GPUで高速化できるのは前者のような並列化可能な計算だけです。
http://www.toffee.jp/streaming/gpgpu/gpgpu_basic/2015/gpgpu_basic08.pdf
https://matome.naver.jp/odai/2138974716185798201

ではよくある計算のうちで典型的な並列計算が得意とするものは何かということですが、
それは行列行列積と高速フーリエ変換などです。
高速フーリエ変換について
https://ie.u-ryukyu.ac.jp/k118589/2012/01/21/cuda-fft-vs-cpu-fft-using-tesla-c2050/
行列行列積（BLAS3）
https://news.mynavi.jp/article/20160125-nvidia/

CUDAを使うのならcuBLASというライブラリをご存知かと思います。

投稿2018/04/02 13:01

mkgrei

総合スコア8562

ベストアンサー

こんにちは。

gpuと並列処理を行うcpuの処理速度は画像処理と機械学習においてどちらが速いですか？

両方とも使うのがベストです。GPUは原理的に多量の単純処理が得意でしょう。CPUはGPUより複雑な処理を担えます。
ですので、基本的にはCPUで処理し、その内GPUに任せた方が高速化できるだろう処理をGPUに任せるのが妥当です。
つまり、もしも、GPUに任せた結果、全体の処理性能が落ちたなら、それは単なる設計ミスです。
従って、ご提示のような比較は意味がありません。

具体的にどんな処理ならGPUに任せた方が全体の性能が上がるのか？については、ごめんなさい。私はGPUへ処理分割した経験がないため、把握していません。
しかし、特定の処理について「GPU化することで高速化に成功した」のような報告は、恐らく学術論文で発表されるようなレベルだろうと思います。

投稿2018/04/02 04:48

Chironian

総合スコア23274

carnage0216

2018/04/02 04:54

貴重なご意見どうもありがとうございます。情報系の大学の論文を探してみます。

gm300

2018/04/02 07:29

＞しかし、特定の処理について「GPU化することで高速化に成功した」のような報告は、恐らく学術論文で発表されるようなレベルだろうと思います。　NvidiaのGDCの発表を見ましょう。革ジャンのNvidiaの社長自らそういった例をガンガン説明してくれます。見ていて楽しいです。

carnage0216

2018/04/02 07:31

どうもありがとうございます。ようつべで探してみます。

episteme

2018/04/02 10:03

なんで本家NVIDIAを先に見に行かないんだ... https://developer.nvidia.com/

carnage0216

2018/04/06 04:57

ちなみにGPUを使いこなすにもCPUのマルチプロセスを実装したりアルゴリズムや原理を学ぶことは役に立つと思うのですが、Chironianさんはどう思いますでしょうか？

carnage0216

2018/04/06 04:58

役に立つならばラズパイ3bで実装したり勉強したいと思います。C/C++の勉強も踏まえて。

episteme

2018/04/06 05:02

GPUとCPUのマルチスレッドはそのからくりがぜーんぜん違うんスよー。

carnage0216

2018/04/06 05:04

では、CPUの並列処理のアルゴリズムを勉強しても意味が無そうです。

carnage0216

2018/04/06 05:17

面白い記事を見つけたので載せます。 http://d.hatena.ne.jp/kei_kei/20091101/1257092364 あくまで仮設なので個人的にはCPUを並列化してもGPUに勝ち目はないように思えます。

Chironian

2018/04/06 07:35

carnage0216さん > ちなみにGPUを使いこなすにもCPUのマルチプロセスを実装したりアルゴリズムや原理を学ぶことは役に立つと思うのですがまずは普通にシングル・スレッド、次にマルチスレッド、そしてマルチコア(GPU)のステップを踏まないと厳しいかも知れませんね。そして、GPUはキャッシュやバス・アービトレーション云々のようなかなりハードウェアに近い部分の学習も必要になると思います。上から下まで全部カバーできる人って天才だろうと思います。そうでない人が手を出すと、全て中途半端で役に立たない人に成り下がる可能性を懸念します。 > 個人的にはCPUを並列化してもGPUに勝ち目はないように思えます。回答にも書きましたように、ある意味当たり前ですが、CPUよりGPUの方が得意な処理は存在します（そうでなければそもそもGPUの存在意義がない）。ですので、そのような処理はGPUに任せると性能は改善する筈ですよ。そして、GPUに任せると効率が劣化するような処理をGPUに任せたら、やはり当たり前ですが性能は劣化します。議論するまでもないと思います。適材適所はいつでも大事です。議論するなら「どんな処理をGPUに任せたほうが良いのか？」などでしょう。回答にも記載した通り、私はその議論には参加できませんが。

carnage0216

2018/04/06 07:50

>>シングル・スレッド、次にマルチスレッド、そしてマルチコア(GPU)のステップを踏まないと厳しいかも知れませんね。天才云々より努力します。アドバイスありがとうございます。

carnage0216

2018/04/06 07:52

>>GPUはキャッシュやバス・アービトレーション云々のようなかなりハードウェアに近い部分の学習も必要になると思います楽しそうで、勉強するのが楽しみです。ちなみに、上から下とはソフトからハードという意味ですか？

Chironian

2018/04/06 08:15

その通りです。GPUの性能をバリバリ引き出せ、かつ、アプリをバリバリ作れるような人は天才と思います。

carnage0216

2018/04/06 08:49

スティーブウォズニアックのような天才ですね。

carnage0216

2018/04/06 10:17

ⅭとC++の基礎を勉強した後でOPENCVなどいずれ解読したいと考えているのですが、OPENCVの関数の構造を理解して（OSに触れない程度に）どの関数とつながっているのかなどを細かく調べていき標準関数（ⅭとC++の基礎に出てきた関数）が見えてくるまで掘り下げるのでしょうか？標準関数がどのように働いて画像処理など行っているかなど深く理解したいと考えています。

行動規範の内容に同意します

既に回答されている方と同じような回答に近いですが、
GPUと機械学習との組み合わせは相性が良いと思います。相性といっているのは、GPUの多数の演算ユニットへ分散処理させる環境が整っています（CUDA.とか）。当然CPUでも分散処理が可能ですが、CPU数が多くノードをまたいだクラスターレベルの分散には新たな環境設定が必要です。
特に機械学習時の逆伝搬を演算する再には時間管理がしやすいGPUが力を発揮します。

一方　画像処理は、得意不得意があります。ご存知レンダリングなどの浮動小数点演算はGPUが圧倒的にちからを発揮します。既にこれらのパワーを使ったLib＆環境がたくさん出ています。しかし、画像処理において、条件を入れる・処理が細かく分解できない場合などは各CPUに処理をさせた方が早いです（SIFT処理など）。CPUにはメモリBuffが備わっているが通常なので、画像を一定の大きさで分割しここで一時的に蓄える事により複雑な条件処理を分散して処理する事が可能です。

皆さんプログラムの内容に従い、上手く使い分けて使用されているようです。

投稿2018/04/02 07:54

kuma1957

総合スコア12

mkgrei

2018/04/02 09:33

https://stackoverflow.com/questions/37669387/why-there-is-no-cudasift-cuda-in-opencv https://www2.cs.arizona.edu/~kingmahdi/Files/siftcu_csse.pdf 得意不得意という意見には賛成ですが、SIFTはどうして高速化できないのでしょうか。

kuma1957

2018/04/02 10:29

言い方を変えれば想定ほど大きな効果がないと考えています。負荷が大きいのは浮動小数点演算で8方向のベクトルを見て数値化してゆくところだと思います。OpenCVの中でどのようしているかは不明ですが、プリミティブな実装を教科書通りしていれば各点ごとの演算になります。まとめて各点のベクトルを演算をする方向でGPUの性能をフルに使っても、いずれも各点の判定に戻るはずです。以前似たような、画像演算をした事がありました。がGPUを使た場合と、画像を分離して分散処理し合成しなおした場合の方が効果があった記憶がありましたので今回の例に掲載しました。SIFTの言葉がひっかりるのであれば、SIFTの部分は取り下げます。

mkgrei

2018/04/02 14:21

kuma1957さん、コメントをありがとうございます。実装にだいぶ依存するのですね。上記で調べたリンクではトータルとして2~3倍程度の速度アップなので、GPUなしの実装を最適化することによって差はより縮まりそうです。処理したい画像のサイズによっても変わりそうですね。 GPUでそれなりに高速化できるFFTですが、配列のサイズをメモリにのらないように大きくすると… https://www.google.co.jp/url?sa=t&rct=j&q=&esrc=s&source=web&cd=6&cad=rja&uact=8&ved=0ahUKEwi29Ii14pvaAhXHUZQKHX5BATMQFghiMAU&url=https%3A%2F%2Fipsj.ixsq.nii.ac.jp%2Fej%2F%3Faction%3Drepository_action_common_download%26item_id%3D18188%26item_no%3D1%26attribute_id%3D1%26file_no%3D1&usg=AOvVaw1E6c4AjK6tTm5pH7u0TEA3 …計算できなくなります。 CPUの方が「はやい」ことの例でしたので、アルゴリズム的に自明なことではなく実装と実測によってわかるということを確認したかった、というのが上記の私のコメントの意図でした。速いことは保証できませんが、早いことは間違いなさそうですね。

行動規範の内容に同意します

あなたの回答