編集履歴

回答編集履歴

追記

2021/06/02 18:29

投稿

スコア30939

answer CHANGED Viewed

@@ -29,4 +29,12 @@
 cp.dot(a,b)
 ```
-を一回実行してから計測を始めた方が公平な比較になりそうではあります（それでも遅いんじゃないかなぁと思ったりしますが）。
+を一回実行してから計測を始めた方が公平な比較になりそうではあります（それでも遅いんじゃないかなぁと思ったりしますが）。
+---
+実装に依る気も若干しますが、素直に2000^3回の積算をこなすと仮定して8*10^9回ですから、35.83GFLOPSのP520で期待される行列積の処理時間は0.22秒くらい。3GHzで走っているskylake系CPUなら0.16秒。icelake以降ならその半分。
+いずれも理論性能なので楽観的です。
+GPUの方の1.12秒はかかりすぎだけど、ちゃんと性能を目一杯出させたとしても勝つかどうかは微妙なくらい、のはず。

追記

2021/06/02 18:29

投稿

スコア30939

answer CHANGED Viewed

@@ -17,4 +17,16 @@
 理論値としてはskylake系のコアで16, icelake以降で32が期待できるので、動作周波数3GHz, `numpy.dot`はシングルコアで動作するとして、skylake系なら48GFLOPS、icelake以降なら96GFLOPS出ます。つまりそのGPUなら、（細かい条件次第ですが）負けても全然おかしくないことになります。
 x86-64 CPUのFP64は意外と速いし、逆にGPUのFP64は遅いのです。ハイエンドのGPUならそれでもCPUより速く動くと期待して良いですが、ローエンドだとあまり期待はできません。
-（FP32で使うという手はあります。1,147 GFLOPS出ることになっているので、こちらなら圧倒的に有利なはずです）
+（FP32で使うという手はあります。1,147 GFLOPS出ることになっているので、こちらなら圧倒的に有利なはずです）
+---
+それはそれとして初期化の問題があるっぽいので、時間計測を始める前に
+```python
+a = cp.random.rand(n,n)
+b = cp.random.rand(n,n)
+cp.dot(a,b)
+```
+を一回実行してから計測を始めた方が公平な比較になりそうではあります（それでも遅いんじゃないかなぁと思ったりしますが）。

追記

2021/06/02 17:55

投稿

スコア30939

answer CHANGED Viewed

@@ -14,7 +14,7 @@
 [FLOPS - Wikipedia](https://en.wikipedia.org/wiki/FLOPS)
-理論値としてはskylake系のコアで16, icelake以降で32が期待できるので、動作周波数3GHz, `numpy.dot`はシングルコアで動作するとして、skylake系なら48GFLOPS、icelake以降なら96GFLOPS出ます。つまりそのGPUなら、条件次第で負けても全然おかしくないことになります。
+理論値としてはskylake系のコアで16, icelake以降で32が期待できるので、動作周波数3GHz, `numpy.dot`はシングルコアで動作するとして、skylake系なら48GFLOPS、icelake以降なら96GFLOPS出ます。つまりそのGPUなら、（細かい条件次第ですが）負けても全然おかしくないことになります。
 x86-64 CPUのFP64は意外と速いし、逆にGPUのFP64は遅いのです。ハイエンドのGPUならそれでもCPUより速く動くと期待して良いですが、ローエンドだとあまり期待はできません。
 （FP32で使うという手はあります。1,147 GFLOPS出ることになっているので、こちらなら圧倒的に有利なはずです）

追記

2021/06/02 12:47

投稿

スコア30939

answer CHANGED Viewed

@@ -16,4 +16,5 @@
 理論値としてはskylake系のコアで16, icelake以降で32が期待できるので、動作周波数3GHz, `numpy.dot`はシングルコアで動作するとして、skylake系なら48GFLOPS、icelake以降なら96GFLOPS出ます。つまりそのGPUなら、条件次第で負けても全然おかしくないことになります。
-x86-64 CPUのFP64は意外と速いし、逆にGPUのFP64は遅いのです。ハイエンドのGPUならそれでもCPUより速く動くと期待して良いですが、ローエンドだとあまり期待はできません。
+x86-64 CPUのFP64は意外と速いし、逆にGPUのFP64は遅いのです。ハイエンドのGPUならそれでもCPUより速く動くと期待して良いですが、ローエンドだとあまり期待はできません。
+（FP32で使うという手はあります。1,147 GFLOPS出ることになっているので、こちらなら圧倒的に有利なはずです）

追記

2021/06/02 12:44

投稿

スコア30939

answer CHANGED Viewed

@@ -14,6 +14,6 @@
 [FLOPS - Wikipedia](https://en.wikipedia.org/wiki/FLOPS)
-理論値としてはskylake系のコアで16, icelake以降で32が期待できるので、動作周波数3GHz, `numpy.dot`はシングルコアで動作するとして、skylake系なら48GFLOPS、icelake以降なら96GFLOPS出ます。
+理論値としてはskylake系のコアで16, icelake以降で32が期待できるので、動作周波数3GHz, `numpy.dot`はシングルコアで動作するとして、skylake系なら48GFLOPS、icelake以降なら96GFLOPS出ます。つまりそのGPUなら、条件次第で負けても全然おかしくないことになります。
-x86-64 CPUのFP64は意外と速いし、逆にGPUのFP64は遅いのです。
+x86-64 CPUのFP64は意外と速いし、逆にGPUのFP64は遅いのです。ハイエンドのGPUならそれでもCPUより速く動くと期待して良いですが、ローエンドだとあまり期待はできません。