回答編集履歴
1
誤字の修正
answer
CHANGED
@@ -6,4 +6,4 @@
|
|
6
6
|
|
7
7
|
ご質問のケース「部分時系列から異常を判定する」は、**特徴量をどう見るかがポイント**であると思います。すなわち、単純な3軸平均加速度だけでなく、短時間の動きの何を特徴とみなして、特徴量として採用するか(計算するか)に、いろいろと試行錯誤するエンジニアリング要素が詰められているように思います。例えば、3軸加速度が一定を超えたら測定頻度を一時的に上げて、ms単位の加速度の変化を収集し、それをフーリエ変換して・・・みたいな形で、たくさんの特徴量を得ることができそうです。**特徴量をどう見るかでK近傍法の距離も変わってきます**ので、とても重要です。
|
8
8
|
|
9
|
-
その特徴量と正解データ(正常/異常)をもとに、K近傍法を用いるのか、ランダムフォレストを用いるのか、GBDTを用いるのか、は、また別の議論です。K近傍法に決めつけずに、いろいろ試してみるとよいと思います。なお、書籍「Kaggleで勝つデータ分析の技術」では、GBDTをほぼ万能な基本モデルと位置付けており、**まずはGBDTを試してみることをオススメします**。なお、ここまでの話でご理解いただけると思いますが、「時系列」という要素は特徴量エンジニアリングには考慮していますが、その後のモデル検討には考慮していません。こういった問題を**「時系列機械学習」であると
|
9
|
+
その特徴量と正解データ(正常/異常)をもとに、K近傍法を用いるのか、ランダムフォレストを用いるのか、GBDTを用いるのか、は、また別の議論です。K近傍法に決めつけずに、いろいろ試してみるとよいと思います。なお、書籍「Kaggleで勝つデータ分析の技術」では、GBDTをほぼ万能な基本モデルと位置付けており、**まずはGBDTを試してみることをオススメします**。なお、ここまでの話でご理解いただけると思いますが、「時系列」という要素は特徴量エンジニアリングには考慮していますが、その後のモデル検討には考慮していません。こういった問題を**「時系列機械学習」であると決めつけて、ググったりしますと、間違った方向に進んでしまいます**ので、ご注意ください。
|