pandasでの行の抽出について

Question

以下のようなサンプル、dfについて考えています。



________id________name_______diff_________num
0   000     aaa       3.0         1
1   111     bbb     123.0       2 
2   222     bbb       0.0         2
3   333     bbb       4.0         2
4   444     ccc     333.0        3
5   555     ccc       3.0          3
6   666     ddd    1234.0       4 
7   777     eee    4567.0       5
8   888     eee       5.0          6
9   999     eee       2.0          6

この中からnameが同じでdiffが小さいにもかかわらず、numがひとつ前の行から変化してしまっている要素をエラーと考えます。この時、間違った更新が行われた二行のデータセットを、１万行の中から全てデータフレームとして取り出したいです。
サンプルの場合は、７行と８行が該当します。
抽出条件にdf.loc[i, 'name'] == df.loc[i+1, 'name'] and df.loc[i+1, 'diff'] < 100
などを考えましたが、データフレーとして取り出せません。うまい方法はありませんでしょうか。
言語は pythonです。

補足
diffですが、ルールでは値が１００以上であれば、ひとつ上の要素とは違うnameとnumを持ちます。
逆に１００未満であれば、同じnameを持ち、numも同じ値になります。
上記サンプルのインデックスが７と８について、８のnumは５であるはずが、６に更新されています。その結果インデックス９のnumも６になってしまっているというケースです。

Accepted Answer

以下のデータフレームを例にします。

```python
In [11]: df
Out[11]:
    id name    diff  num
0    0  aaa     3.0    1
1  111  bbb   123.0    2
2  222  bbb     0.0    2
3  333  bbb     4.0    2
4  444  ccc   333.0    3
5  555  ccc     3.0    3
6  666  ddd  1234.0    4
7  777  eee  4567.0    5
8  888  eee     5.0    6
9  999  eee     2.0    6
```

`pd.Series.shift()`を用いると、ある列を一行分ずらすことができます。pandasを用いて「一つ上/下の行と比較」のような作業を行う場合は基本的にこれを用います。
なお、`shift()`の引数に整数を与えると、その値分ずらすことができます。
[pandas.Series.shift — pandas documentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.shift.html)
[pandasでデータを行・列（縦・横）方向にずらすshift | note.nkmk.me](https://note.nkmk.me/python-pandas-shift/)

```python
In [12]: df[['name', 'num']].shift()
Out[12]:
  name  num
0  NaN  NaN
1  aaa  1.0
2  bbb  2.0
3  bbb  2.0
4  bbb  2.0
5  ccc  3.0
6  ccc  3.0
7  ddd  4.0
8  eee  5.0
9  eee  6.0
```

したがって、[条件式を用いたデータ抽出](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#boolean-indexing)を行って、「nameがひとつ上の行と同じ」かつ「numがひとつ上の行と同じ」かつ「diffが100未満」の行を以下のコードで得ることができます。

```python
In [13]: cond = ((df['name'] == df['name'].shift())
    ...:         & (df['num'] != df['num'].shift())
    ...:         & (df['diff'] < 100))
    ...: cond
Out[13]:
0    False
1    False
2    False
3    False
4    False
5    False
6    False
7    False
8     True
9    False
dtype: bool

In [14]: df[cond]
Out[14]:
    id name  diff  num
8  888  eee   5.0    6
```

これで誤っている行は抽出できました。今回はその一つ上の行もほしいということなので、以下の操作を行います。

条件式から得たT/F配列の`cond`に`.shift(-1)`を適用して一つ上にずらし、元の`cond`とany（`|`）を取ることで、`True`の行のひとつ上の行を`False`から`True`にすることができます。

```python
In [15]: cond | cond.shift(-1, fill_value=False)
Out[15]:
0    False
1    False
2    False
3    False
4    False
5    False
6    False
7     True
8     True
9    False
dtype: bool

In [16]: df[cond | cond.shift(-1, fill_value=False)]
Out[16]:
    id name    diff  num
7  777  eee  4567.0    5
8  888  eee     5.0    6
```

Answer

```python
result = df[(df['name'] == df['name'].shift()) & (abs(df['diff'] - df['diff'].shift()) < 100) | (abs(df['diff'] - df['diff'].shift(-1)) < 100) & ~(df['num'] == df['num'].shift()) & ~(df['num'] == df['num'].shift(-1))]
```

関連した質問