時系列データに対するK近傍法の閾値の決め方等

Question

### 質問
時系列データに対する異常検知についての研究をしています。
ネットで色々調べた結果、
・外れ値検知
・異常部位検出
・変化点検知
などの手法があることがわかりました。
時系列データに対し、窓幅を設定しデータの異常を検知するということがしたいです。
(データ点ではなく部分時系列が異常かどうかを評価するということ)
手法を色々調べてK近傍法を使うとよいと書いてあったのですが、そこでいくつか質問があります。
・K近傍法を使う際、Kの適切な値を選択する方法はありますか。適当に決め打ちするしかないのでしょうか。
・異常度を計算しそれをtestデータとともにプロットするところまではできましたが、最終的に正常か異常かを判定するにはどうすればよいのでしょうか。
異常度の閾値を自分で設定して判定するということは考えましたが、閾値の設定の仕方もわからず困っています。
(ホテリング理論？を使って閾値の決定をすることを考えましたが元のデータが正規分布に従うのかどうかがわかりません。ちなみに元データは転倒検知をする際の、人の動きにおける3軸加速度です。)

自分なりにネットで調べましたが、部分時系列から異常を判定する記事が思ったよりも少なかった為質問させていただきました。
どなたかアドバイスを頂けたら幸いです。
長文失礼いたします。

### 補足情報（FW/ツールのバージョンなど）
Pythonを使って実装しています。

```python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.neighbors import NearestNeighbors


'''
dataをsize毎のスライス窓に分割
'''

def main():
    df = pd.read_csv("20191121.csv")

    # 余分なデータをDataFrameから削除
    df = df.drop(['name', 'x_rad/s', 'y_rad/s', 'z_rad/s'], axis=1)

    df = df.set_index('time')

    #x, y, z軸加速度を視認化
    df.plot().legend(loc='upper left')

    # 前から2480件のx軸加速度を学習データ、その次の2479件をテストデータとする
    # # df.iloc[2479] ---> 53845130
    # df.iloc[2480] ---> 53845150
    train_data = df.loc[:53845130, 'x_ags']
    test_data = df.loc[53845150:, 'x_ags'].reset_index(drop=True)

    # 窓幅
    width = 30

    # k近傍法のk
    nk = 1

    # 窓幅を使ってベクトルの集合を作成
    train = embed(train_data, width)
    test = embed(test_data, width)

    # k近傍法でクラスタリング
    neigh = NearestNeighbors(n_neighbors=nk)
    neigh.fit(train)

    # 距離を計算
    d = neigh.kneighbors(test)[0]

    # 距離の正規化
    mx = np.max(d)
    d = d / mx

    # 訓練データ
    plt.subplot(221)
    plt.plot(train_data, label='Training')
    plt.xlabel("Amplitude", fontsize=12)
    plt.ylabel("Sample", fontsize=12)
    plt.grid()
    leg = plt.legend(loc=1, fontsize=15)
    leg.get_frame().set_alpha(1)

    # 異常度
    plt.subplot(222)
    plt.plot(d, label='d')
    plt.xlabel("Amplitude", fontsize=12)
    plt.ylabel("Sample", fontsize=12)
    plt.grid()
    leg = plt.legend(loc=1, fontsize=15)
    leg.get_frame().set_alpha(1)

    # 検証用データ
    plt.subplot(223)
    plt.plot(test_data, label='Test')
    plt.xlabel("Amplitude", fontsize=12)
    plt.ylabel("Sample", fontsize=12)
    plt.grid()
    leg = plt.legend(loc=1, fontsize=15)
    leg.get_frame().set_alpha(1)


def embed(lst, dim):
    emb = np.empty((0, dim), float)
    for i in range(lst.size - dim + 1):
        tmp = np.array(lst[i:i+dim])[::-1].reshape((1, -1))
        emb = np.append(emb, tmp, axis=0)
    return emb

if __name__ == '__main__':
    main()
```

![左上:訓練データ,左下:テストデータ,右上:異常度](15d9983fb3b40aded89010e0bc082414.png)

Accepted Answer

K近傍法の分類の方法、K値の決め方については、以下が参考になるでしょう。

[機械学習 〜 K−近傍法 〜](https://qiita.com/fujin/items/128ed7188f7e7df74f2c)

K値はいろいろ変えてみて、もっとも分類精度の高いものを採用しているようです。

ご質問のケース「部分時系列から異常を判定する」は、**特徴量をどう見るかがポイント**であると思います。すなわち、単純な3軸平均加速度だけでなく、短時間の動きの何を特徴とみなして、特徴量として採用するか（計算するか）に、いろいろと試行錯誤するエンジニアリング要素が詰められているように思います。例えば、3軸加速度が一定を超えたら測定頻度を一時的に上げて、ms単位の加速度の変化を収集し、それをフーリエ変換して・・・みたいな形で、たくさんの特徴量を得ることができそうです。**特徴量をどう見るかでK近傍法の距離も変わってきます**ので、とても重要です。

その特徴量と正解データ（正常/異常）をもとに、K近傍法を用いるのか、ランダムフォレストを用いるのか、GBDTを用いるのか、は、また別の議論です。K近傍法に決めつけずに、いろいろ試してみるとよいと思います。なお、書籍「Kaggleで勝つデータ分析の技術」では、GBDTをほぼ万能な基本モデルと位置付けており、**まずはGBDTを試してみることをオススメします**。なお、ここまでの話でご理解いただけると思いますが、「時系列」という要素は特徴量エンジニアリングには考慮していますが、その後のモデル検討には考慮していません。こういった問題を**「時系列機械学習」であると決めつけて、ググったりしますと、間違った方向に進んでしまいます**ので、ご注意ください。

質問

補足情報（FW/ツールのバージョンなど）

関連した質問