編集履歴

回答編集履歴

追記

2020/04/06 21:38

投稿

hayataka2049

スコア30939

answer CHANGED Viewed

@@ -88,4 +88,39 @@
 （ベンチマーク取ってるページがありましたが、これを見るとnumbaでいいじゃんとなる・・・
 [Python を高速化する Numba, Cython 等を使って Julia Micro-Benchmarks してみた - Qiita](https://qiita.com/yniji/items/b7acffa02f03a94882e5)）
-int16やint8にすれば多少速くなりますが、8bitだと128個1が続いただけでオーバーフローなので都合が悪いでしょう。
+int16やint8にすれば多少速くなりますが、8bitだと128個1が続いただけでオーバーフローなので都合が悪いでしょう。
+---
+行方向走査で、配列のコピーをやめてインプレース処理にすると関数自体の速度は1秒を切ります（0.6くらい）。使いたいかどうかはわかりませんが、一応載せておきます。
+```python
+@jit("i4[:,:](i4[:,:])", nopython=True)
+def f2_i(B):
+    for i in range(B.shape[0]): # 行のループ
+        before = 0
+        start_pos = 0
+        cnt = 0
+        for j in range(B.shape[1]): # 列のループ
+            if B[i, j] == 1:  # 1のとき
+                if before == 0:  # 直前の状態が0なら1にして数え始める
+                    start_pos = j
+                    before = 1
+                cnt += 1  # 数える
+            else:  # 0のとき
+                if before != 1:  # 直前の状態が0なら無視して続ける
+                    continue
+                else:  # 直前の状態が1のとき
+                    # 1が出た範囲をcntで埋める
+                    B[i, start_pos:j] = cnt
+                    # 状態をリセットする
+                    before = 0
+                    cnt = 0
+        # 行が終わって状態が1のとき
+        if before == 1:
+            B[i, start_pos:B.shape[1]] = cnt
+    return B
+```
+逆に言うとコピーに時間がかかると思うので、新しい配列を返すつもりであれば本体の処理の高速化で受けられる恩恵はそんなにないのかもしれません。

追記

2020/04/06 21:38

投稿

hayataka2049

スコア30939

answer CHANGED Viewed

@@ -85,4 +85,7 @@
 どちらにしても、処理時間のかなりの割合は1.6GBもある配列の生成とコピーで食っています。ということで、これで実用上問題にはならないでしょう。Cythonで同じロジックをやるともう少し速い可能性はあるのですが、numbaのjitコンパイルだって優秀です。
+（ベンチマーク取ってるページがありましたが、これを見るとnumbaでいいじゃんとなる・・・
+[Python を高速化する Numba, Cython 等を使って Julia Micro-Benchmarks してみた - Qiita](https://qiita.com/yniji/items/b7acffa02f03a94882e5)）
 int16やint8にすれば多少速くなりますが、8bitだと128個1が続いただけでオーバーフローなので都合が悪いでしょう。

追記

2020/04/06 18:38

投稿

hayataka2049

スコア30939

answer CHANGED Viewed

@@ -83,6 +83,6 @@
 こちらは6秒でした。
-どちらにしても、処理時間のかなりの割合は1.6GBもある配列の生成とコピーで食っています。関数自体は一瞬で返るみたいなので、これでいいでしょう。
+どちらにしても、処理時間のかなりの割合は1.6GBもある配列の生成とコピーで食っています。ということで、これで実用上問題にはならないでしょう。Cythonで同じロジックをやるともう少し速い可能性はあるのですが、numbaのjitコンパイルだって優秀です。
 int16やint8にすれば多少速くなりますが、8bitだと128個1が続いただけでオーバーフローなので都合が悪いでしょう。

追記

2020/04/06 18:35

投稿

hayataka2049

スコア30939

answer CHANGED Viewed

@@ -83,6 +83,6 @@
 こちらは6秒でした。
-どちらにしても、処理時間のかなりの割合は1.6GBもある配列の生成で食っています。関数自体は一瞬で返るみたいなので、これでいいでしょう。
+どちらにしても、処理時間のかなりの割合は1.6GBもある配列の生成とコピーで食っています。関数自体は一瞬で返るみたいなので、これでいいでしょう。
 int16やint8にすれば多少速くなりますが、8bitだと128個1が続いただけでオーバーフローなので都合が悪いでしょう。

追記

2020/04/06 18:32

投稿

hayataka2049

スコア30939

answer CHANGED Viewed

@@ -1,7 +1,9 @@
 numbaで書いてみました。手元でいくつかのテストケースでは確認しましたが、絶対に正しいとは言い切れないので、ちゃんと動くかはご自身で確認してください。
-方針としては、とにかくpython側で処理してしまうと遅いので、配列ごとnumbaに投げます。numba側のプログラムの書き方は見ての如くです。
+方針としては、とにかくpython側で処理してしまうと遅いので、配列ごとnumbaに投げます。
+numba側のプログラムの書き方は見ての如くです。CとかFORTRANのノリで書いてください。numpyの関数を呼び出すよりそっちの方が速いのです（新たなnumpy配列を返す関数はメモリ上に新たな配列を作るのですべて本質的には遅いのです）。
 ```python
 import numpy as np
 from numba import jit

passよりcontinueの方が意味が明確だし、もしかしたら微妙に最適化されるかもと思って（測った限り効いてない）

2020/04/06 18:30

投稿

hayataka2049

スコア30939

answer CHANGED Viewed

@@ -21,7 +21,7 @@
                 cnt += 1  # 数える
             else:  # 0のとき
                 if before != 1:  # 直前の状態が0なら無視して続ける
-                    pass
+                    continue
                 else:  # 直前の状態が1のとき
                     for k in range(start_pos, j):  # 1が出た範囲をcntで埋める
                         B[k, i] = cnt
@@ -63,7 +63,7 @@
                 cnt += 1  # 数える
             else:  # 0のとき
                 if before != 1:  # 直前の状態が0なら無視して続ける
-                    pass
+                    continue
                 else:  # 直前の状態が1のとき
                     for k in range(start_pos, j):  # 1が出た範囲をcntで埋める
                         B[i, k] = cnt

追記

2020/04/06 18:23

投稿

hayataka2049

スコア30939

answer CHANGED Viewed

@@ -45,6 +45,7 @@
 列方向に見ていくのはキャッシュ効率の観点からするとあまり好ましくありません。ということで、同じロジックで列ベクトルではなく行ベクトルを扱うバージョンの関数も作ってみました。
 入力を転置して与えてください。結果も転置されたものが出てきます。
+（転置がビューかコピーかで変わるかな？　とも思ったのですが、これで速くなったのでたぶんいいのでしょう）
 ```python
 @jit("i4[:,:](i4[:,:])", nopython=True)

追記

2020/04/06 18:21

投稿

hayataka2049

スコア30939

answer CHANGED Viewed

@@ -80,4 +80,6 @@
 こちらは6秒でした。
-どちらにしても、処理時間のかなりの割合は1.6GBもある配列の生成で食っています。関数自体は一瞬で返るみたいなので、これでいいでしょう。
+どちらにしても、処理時間のかなりの割合は1.6GBもある配列の生成で食っています。関数自体は一瞬で返るみたいなので、これでいいでしょう。
+int16やint8にすれば多少速くなりますが、8bitだと128個1が続いただけでオーバーフローなので都合が悪いでしょう。

送信エラー

2020/04/06 18:15

投稿

hayataka2049

スコア30939

answer CHANGED Viewed

@@ -78,4 +78,6 @@
 ```
-こちらは6秒でした。
+こちらは6秒でした。
+どちらにしても、処理時間のかなりの割合は1.6GBもある配列の生成で食っています。関数自体は一瞬で返るみたいなので、これでいいでしょう。

追記

2020/04/06 18:12

投稿

hayataka2049

スコア30939

answer CHANGED Viewed

@@ -38,4 +38,44 @@
 ```
-2万の正方行列で10秒くらいでした。
+2万の正方行列で10秒くらいでした。
+---
+列方向に見ていくのはキャッシュ効率の観点からするとあまり好ましくありません。ということで、同じロジックで列ベクトルではなく行ベクトルを扱うバージョンの関数も作ってみました。
+入力を転置して与えてください。結果も転置されたものが出てきます。
+```python
+@jit("i4[:,:](i4[:,:])", nopython=True)
+def f_trans(A):
+    B = A.copy()
+    for i in range(B.shape[0]): # 行のループ
+        before = 0
+        start_pos = 0
+        cnt = 0
+        for j in range(B.shape[1]): # 列のループ
+            if B[i, j] == 1:  # 1のとき
+                if before == 0:  # 直前の状態が0なら1にして数え始める
+                    start_pos = j
+                    before = 1
+                cnt += 1  # 数える
+            else:  # 0のとき
+                if before != 1:  # 直前の状態が0なら無視して続ける
+                    pass
+                else:  # 直前の状態が1のとき
+                    for k in range(start_pos, j):  # 1が出た範囲をcntで埋める
+                        B[i, k] = cnt
+                    # 状態をリセットする
+                    before = 0
+                    cnt = 0
+        # 行が終わって状態が1のとき
+        if before == 1:
+            for k in range(start_pos, B.shape[1]):
+                B[i, k] = cnt
+    return B
+```
+こちらは6秒でした。