csv４つ以上の連番除外　python

Question

### 前提・実現したいこと


下記の１０行１０列のcsvを読み込み行の数字を読み込んで4つ以上の連番含む行は除外して新たにcsvを作成したいです
data.csvを読み込み処理しdata1.csv の作成

連番を含む行は除外
ーー 例 ーー　
1,2,3,4,6,8,15,20,22,26  　　　…除外（1,2,3,4）
4,6,8,15,16,20,25,35,40,44 　　…連番が４以下なので除外しない
5,8,10,11,12,13,17,20,22,25 　 …除外（10,11,12,13）
ーーーーーーーーーーーーーーーーーーーーーーー





data.csv
8,17,22,23,24,25,37,40,44,45
12,13,17,19,22,23,24,25,30,33
3,9,11,18,24,31,32,39,49,55
1,5,10,11,12,13,20,25,30,35
5,7,15,16,18,20,27,39,53,59
3,4,9,16,17,21,22,23,35,47
13,14,15,16,24,25,28,29,37,44
4,6,7,15,21,22,33,34,35,36
6,11,12,20,22,24,29,34,37,40
1,3,6,8,11,21,22,23,24,25


↓読み込み仕分けして削除それぞれ作成

連番が４個以上ある行を除外し以下のものだけ残したcsv作成




data1.csv
3,9,11,18,24,31,32,39,49,55
5,7,15,16,18,20,27,39,53,59
3,4,9,16,17,21,22,23,35,47
6,11,12,20,22,24,29,34,37,40



### 該当のソースコード

```pythno
import pandas as pd

df = pd.read_csv('data.csv', header=None)

#↓判断箇所
df = 


df = df.drop(, axis=0)
df.to_csv('data1.csv', header=None, index=None, encoding='utf_8_sig') 




```

### 参考にさせて頂いたサイト



> https://teratail.com/questions/132543
連番のcsvファイル（文字も含んでいる)の処理


> https://blog.fantom.co.jp/2020/02/03/determine-if-a-file-is-a-sequential-number-first/
名前に現在時刻を入れたファイルが連番かどうか判定



判断させる所の考え方等
助言等戴けると幸いです


### 補足情報（FW/ツールのバージョンなど）

ここにより詳細な情報を記載してください。

Accepted Answer

- 連番＝手前の数値との差分が１
- ４連続＝差分が１が３連続する

なので、以下のような判定でいけそうです。
参考：[Python/Pandas】連続値の個数をカウント](https://algorithm.joho.info/programming/python/count-continuous-values/)

```Python
import pandas as pd
from io import StringIO

s = """
8,17,22,23,24,25,37,40,44,45
12,13,17,19,22,23,24,25,30,33
3,9,11,18,24,31,32,39,49,55
1,5,10,11,12,13,20,25,30,35
5,7,15,16,18,20,27,39,53,59
3,4,9,16,17,21,22,23,35,47
13,14,15,16,24,25,28,29,37,44
4,6,7,15,21,22,33,34,35,36
6,11,12,20,22,24,29,34,37,40
1,3,6,8,11,21,22,23,24,25"""
df = pd.read_csv(StringIO(s), header=None)

# 差分が１が４連続するか
def is_four(ser):
    # 差分が１かの真偽結果を得る
    s1 = ser.diff().fillna(0).astype(int) == 1
    # 真または偽が連続する累積数を求める
    s2 = s1.groupby((s1 != s1.shift()).cumsum()).cumcount() + 1
    # 真が３連続以上
    return (s1 & (s2 >= 3)).any()

ret = df.apply(is_four, axis=1)
df = df[~ret] # 条件に一致した行を除外
print(df)
#   0   1   2   3   4   5   6   7   8   9
#2  3   9  11  18  24  31  32  39  49  55
#4  5   7  15  16  18  20  27  39  53  59
#5  3   4   9  16  17  21  22  23  35  47
#8  6  11  12  20  22  24  29  34  37  40
```

Answer

```python
import io
import numpy as np
from scipy import ndimage

data = """
8,17,22,23,24,25,37,40,44,45
12,13,17,19,22,23,24,25,30,33
3,9,11,18,24,31,32,39,49,55
1,5,10,11,12,13,20,25,30,35
5,7,15,16,18,20,27,39,53,59
3,4,9,16,17,21,22,23,35,47
13,14,15,16,24,25,28,29,37,44
4,6,7,15,21,22,33,34,35,36
6,11,12,20,22,24,29,34,37,40
1,3,6,8,11,21,22,23,24,25"""

arr = np.genfromtxt(io.StringIO(data), delimiter=',')
# array([[ 8, 17, 22, 23, 24, 25, 37, 40, 44, 45],
#        [12, 13, 17, 19, 22, 23, 24, 25, 30, 33],
#        [ 3,  9, 11, 18, 24, 31, 32, 39, 49, 55],
#        [ 1,  5, 10, 11, 12, 13, 20, 25, 30, 35],
#        [ 5,  7, 15, 16, 18, 20, 27, 39, 53, 59],
#        [ 3,  4,  9, 16, 17, 21, 22, 23, 35, 47],
#        [13, 14, 15, 16, 24, 25, 28, 29, 37, 44],
#        [ 4,  6,  7, 15, 21, 22, 33, 34, 35, 36],
#        [ 6, 11, 12, 20, 22, 24, 29, 34, 37, 40],
#        [ 1,  3,  6,  8, 11, 21, 22, 23, 24, 25]])

# その1
idx = np.all(np.convolve(np.ediff1d(arr.ravel()) == 1, np.array([1, 1, 1]))[:-1].reshape(arr.shape)[:, 2:-1] != 3, 1)
# その2
idx = np.all(ndimage.convolve((np.diff(arr) == 1).view(np.int8), np.array([[1, 1, 1]])) != 3, 1)

arr[idx]
# array([[ 3,  9, 11, 18, 24, 31, 32, 39, 49, 55],
#        [ 5,  7, 15, 16, 18, 20, 27, 39, 53, 59],
#        [ 3,  4,  9, 16, 17, 21, 22, 23, 35, 47],
#        [ 6, 11, 12, 20, 22, 24, 29, 34, 37, 40]])
```

---

## 解説

### 工程１

まず、`np.diff()`あるいは`np.ediff1d()`を用いて、隣との差を計算します。`np.ediff1d()`を用いる場合は、事前に`arr`を一次元配列にします。

```python
a = np.diff(arr)
# array([[ 9,  5,  1,  1,  1, 12,  3,  4,  1],
#        [ 1,  4,  2,  3,  1,  1,  1,  5,  3],
#        [ 6,  2,  7,  6,  7,  1,  7, 10,  6],
#        [ 4,  5,  1,  1,  1,  7,  5,  5,  5],
#        [ 2,  8,  1,  2,  2,  7, 12, 14,  6],
#        [ 1,  5,  7,  1,  4,  1,  1, 12, 12],
#        [ 1,  1,  1,  8,  1,  3,  1,  8,  7],
#        [ 2,  1,  8,  6,  1, 11,  1,  1,  1],
#        [ 5,  1,  8,  2,  2,  5,  5,  3,  3],
#        [ 2,  3,  2,  3, 10,  1,  1,  1,  1]])

a1D = np.ediff1d(arr.ravel())
# array([  9,   5,   1,   1,   1,  12,   3,   4,   1, -33,   1,   4,   2,
#          3,   1,   1,   1,   5,   3, -30,   6,   2,   7,   6,   7,   1,
#          7,  10,   6, -54,   4,   5,   1,   1,   1,   7,   5,   5,   5,
#        -30,   2,   8,   1,   2,   2,   7,  12,  14,   6, -56,   1,   5,
#          7,   1,   4,   1,   1,  12,  12, -34,   1,   1,   1,   8,   1,
#          3,   1,   8,   7, -40,   2,   1,   8,   6,   1,  11,   1,   1,
#          1, -30,   5,   1,   8,   2,   2,   5,   5,   3,   3, -39,   2,
#          3,   2,   3,  10,   1,   1,   1,   1])
```

### 工程２

続いて、得た配列を1と比較することで、連番になっている部分を取得します。(`.view(np.int8)`は、True/Falseの配列を1/0にするために用いています)

```python
b = (a == 1).view(np.int8)
# array([[0, 0, 1, 1, 1, 0, 0, 0, 1],
#        [1, 0, 0, 0, 1, 1, 1, 0, 0],
#        [0, 0, 0, 0, 0, 1, 0, 0, 0],
#        [0, 0, 1, 1, 1, 0, 0, 0, 0],
#        [0, 0, 1, 0, 0, 0, 0, 0, 0],
#        [1, 0, 0, 1, 0, 1, 1, 0, 0],
#        [1, 1, 1, 0, 1, 0, 1, 0, 0],
#        [0, 1, 0, 0, 1, 0, 1, 1, 1],
#        [0, 1, 0, 0, 0, 0, 0, 0, 0],
#        [0, 0, 0, 0, 0, 1, 1, 1, 1]], dtype=int8)

b1D = a1D == 1
# array([False, False,  True,  True,  True, False, False, False,  True,
#        False,  True, False, False, False,  True,  True,  True, False,
#        False, False, False, False, False, False, False,  True, False,
#        False, False, False, False, False,  True,  True,  True, False,
#        False, False, False, False, False, False,  True, False, False,
#        False, False, False, False, False,  True, False, False,  True,
#        False,  True,  True, False, False, False,  True,  True,  True,
#        False,  True, False,  True, False, False, False, False,  True,
#        False, False,  True, False,  True,  True,  True, False, False,
#         True, False, False, False, False, False, False, False, False,
#        False, False, False, False, False,  True,  True,  True,  True])
```

上記の配列で1が3連続する箇所は、連番が4つ続いているということです。

### 工程３

畳み込み演算（`np.convolve()`または`scipy.ndimage.convolve()`）を利用して、1が3連続する箇所を探し出します。なお`np.convolve()`は一次元配列同士でしか計算できませんので、計算後に形を整える必要があります。

```python
c = ndimage.convolve(b, np.array([[1, 1, 1]]))
# array([[0, 1, 2, 3, 2, 1, 0, 1, 2],
#        [2, 1, 0, 1, 2, 3, 2, 1, 0],
#        [0, 0, 0, 0, 1, 1, 1, 0, 0],
#        [0, 1, 2, 3, 2, 1, 0, 0, 0],
#        [0, 1, 1, 1, 0, 0, 0, 0, 0],
#        [2, 1, 1, 1, 2, 2, 2, 1, 0],
#        [3, 3, 2, 2, 1, 2, 1, 1, 0],
#        [1, 1, 1, 1, 1, 2, 2, 3, 3],
#        [1, 1, 1, 0, 0, 0, 0, 0, 0],
#        [0, 0, 0, 0, 1, 2, 3, 3, 3]], dtype=int8)

c1D = np.convolve(b1D, np.array([1, 1, 1]))[:-1].reshape(arr.shape)[:, 2:-1]
# array([[1, 2, 3, 2, 1, 0, 1],
#        [1, 0, 1, 2, 3, 2, 1],
#        [0, 0, 0, 1, 1, 1, 0],
#        [1, 2, 3, 2, 1, 0, 0],
#        [1, 1, 1, 0, 0, 0, 0],
#        [1, 1, 1, 2, 2, 2, 1],
#        [3, 2, 2, 1, 2, 1, 1],
#        [1, 1, 1, 1, 2, 2, 3],
#        [1, 1, 0, 0, 0, 0, 0],
#        [0, 0, 0, 1, 2, 3, 3]])
```

上記の配列で`3`がある箇所は、連番が4つ続いているということです。

### 工程４

取得した配列に3が含まれる行を除外するので、求める`idx`は、

```python
idx = np.all(c != 3, 1)
# array([False, False,  True, False,  True,  True, False, False,  True, False])

idx = np.all(c1D != 3, 1)
# array([False, False,  True, False,  True,  True, False, False,  True, False])
```

Answer

rollingを使えば連続する区間に対しての処理が簡単に書けます。
```python
import pandas as pd

df = pd.read_csv('data.csv', header=None)

# 判断箇所
N = 4
is_consecutive = (
    (df.diff(axis=1) == 1)              # 隣との増分が1ならTrue (隣と連続)
    .rolling(N - 1, axis=1).apply(all)  # N-1続けてTrueならTrue (N個続けて連続)
    .any(axis=1, skipna=True)           # 行に一つでもTrueがあればTrue
)

# N個連続がある行以外を選択
df = df[~is_consecutive]
df.to_csv('data1.csv', header=None, index=None, encoding='utf_8_sig') 
```

前提・実現したいこと

該当のソースコード

参考にさせて頂いたサイト

補足情報（FW/ツールのバージョンなど）

解説

工程１

工程２

工程３

工程４

関連した質問