機械学習　時系列データの特徴抽出

使用するデータ

使用するデータは以下のような短時間の時系列データです．

左の画像：右方向の短時間時系列データ
右の数字：その時系列に対する教師データ（0または1）

※このような短時間の時系列データとそれに対応する教師データは約1000件ほどあります．

データの特徴（ヒトが見た感じ）

ヒトが上記に示した使用する2件データを見ると，

時系列データの最終データが小さければ，0になりやすい
時系列データの最終データが大きければ，1になりやすい

という特徴が見えてくるはずです．
※2件では断定できませんが，全データを見た場合でも上記のような特徴をつかめています（ヒト）．

機械学習によって特徴をつかみたい

上記に示す，ヒトでは感じ取れるデータの特徴を機械学習によって学習できないかと模索しております．

ただデータの特徴というだけでは抽象的すぎるため，実際に得られてほしいデータとしては，1になる確率です．

ヒトが感じる「最終データが大きければ1になりやすい」というのは言い換えると「1になる確率」とも言えます．
したがって，学習モデルから必要とする最終的なデータとしては1になる確率です．

現在分かっていること

このような問題は2値分類に相当すると考えています．すなわち，学習時の最終層にはsigmoid関数を用意し，1になる確率を算出するのだと思います．
また，現在はKerasのSimpleRNNを用いて以下のようなモデルを構成しています．

model = Sequential()
model.add(Masking(mask_value=-1, input_shape=(None, 1)))
model.add(SimpleRNN(units=16, activation='tanh'))
model.add(Dense(units=1, activation='sigmoid'))

なお，このモデルの結果ですが，あまり良い結果は得られていません．

実現したいこと（最後に）

データの特徴をつかむための学習方法として現在実装しているSimpleRNNが適切であるかどうか
上記で示した現在実装している方法以外でより良いものはないか

よろしくお願いします．

行動規範の内容に同意します

回答1件

ベストアンサー

いちおう「機械学習」タグ別月間ランキングNo.1となっている立場でお答えします。

機械学習を実践で使いたいと考えられているのか、機械学習を学問や技術として学びたいのか、で回答は変わります。

前者であれば、機械学習を使おうと最初から考えるのはやめましょう。
この問題であれば、

Python
1if 最終データ > 20:
2    予測値 = 1
3else
4    予測値 = 0

を組み込めば十分です。要するに人間が見て感じるロジックを、愚直にコードに落とすのがよいです。

参考: 機械学習システムのアーキテクチャアラカルト
スライド18: 「BrainPadの開発エンジニアが機械学習システムを構築する場合、以下の順番で検討することが多い 1. やりたいことに機械学習は本当に必要か?」

後者であっても、時系列だからRNNだーとか、LSTMだーとかに飛びつくのはやめて、普通の回帰やせいぜいニューラルネットを使いましょう。時系列専用のモデルは、パターンにハマれば強いですが、ハマらない場合のが経験的に多いです。

参考 : ディープラーニングで株価予測するときの罠

投稿2020/11/06 11:48

toast-uz

総合スコア3266

aheshiyu_tt

2020/11/07 13:01

ご回答ありがとうございます．機械学習を用いる理由は前者の「機械学習を実践で使いたい」ということが大きいです．回答者様の言う通り，機械学習を用いずに人間が感じるロジックをそのままコードに落とすのが良いという意見はもっともです．しかし，回答者様が提示されている例では大きさが「20」以上であれば1，そうでなければ0としていますが，その「20」という境界はどこから計算された値なのでしょうか．（数字自体は例として提示されているのは理解しています）ここで示した人間が感じとる特徴とは，あくまでも，値が次第に大きく変化していれば1になりそう，次第に小さく変化していれば0になりそうだという曖昧な特徴です．また，変化する値が「0, 10, 20, 30」と変化した場合と，「60, 50, 40, 30」と変化した場合，最終的な値は同じ「30」という値ですが，前者は1になりそう，後者は0になりそうだと人間は分かると思います．このような時系列的な変化を特徴として学習させたいと思っております．また，今回扱うデータは値が0～100となっており，ちょうど中央の数値である「50」を基準にすればよいのではないかということも考えられますが，仮にそのように設定した場合，本当に「50」を基準にしてよいのかという議論になると思います．回答者様の回答も十分参考にさせていただいておりますが，上記のことについても考慮した上でもう一度ご回答をお願いいたします．長文で申し訳ありません．よろしくお願いします．

toast-uz

2020/11/07 13:20

> 値が次第に大きく変化していれば1になりそう，次第に小さく変化していれば0になりそうだという曖昧な特徴もとの質問文にはこのような前提はありません。「人間が見て感じるロジック」が増えるのであれば、それを愚直にコードに落とすだけです。 if 最終データ > 最終データの1つ前: 予測値 = 1 else 予測値 = 0 にすればよいです。いや1つ前くらいだと揺らぐかも→また新しい前提ですね。ならば比較を10個前にしましょう。みたいな感じで、実用になるところまで、ロジックをコードに落とせば良いです。言いたいのは「こういう取り組みをやっても、実用的な精度でのコードに落としにくい」となって、はじめて機械学習を考えてみるべき、ということです。こういう取り組みをやらずに、機械学習に飛びついてはいけません。

aheshiyu_tt

2020/11/09 05:56 編集

ご返信ありがとうございます．提示されたやり方で実際にやってみたところ，2値分類における正解率は78%と一見良い結果が得られました．しかしラベルの0と1について，実際のところ0の数の方が1の数に比べて圧倒的に多いということもあり，提示されたプログラムの if 最終データ > 最終データの1つ前: 予測値 = 1 else 予測値 = 0 では，とりあえず0に分類すれば良い結果が得られてしまうということが分かりました．そこで，プログラムの条件式に「=」を追加して再び実行してみました． if 最終データ >= 最終データの1つ前: 予測値 = 1 else 予測値 = 0 結果としては正解率は20%程度となってしまい，やはり「1」という正確な予測は難しいことが分かりました． ※10個前のデータを用いても条件式による上記の違いが出ました．ここまで丁寧に教えていただいて本当にありがたいのですが，申し訳ないのですが，私が実装したいのはこのような2値分類ではありません．元の質問文にも書いています通り，「1である確率」が結果として欲しいのです．欲しい結果が確率である理由としては，最終的にそのモデルを検証する段階において以下のような検証をして，モデルの予測精度を測りたいからです．例えば60%という予測を例に挙げますと，「1である確率は60％である」と予測した回数　→　x回「テストデータも本当に1である」回数　→　y回このとき，y/x の値が 0.6(60%) に近くなっていればこの機械学習モデル（アルゴリズムモデル）の精度は高いと判断できます． ※このような検証方法の一般的な名称を知らないため説明が分かりにくいかもしれません．このようなモデルを実装したいというのが狙いです．

toast-uz

2020/11/09 10:19 編集

「「人間が見て感じるロジック」を愚直にコードに落とすだけ」というのが私の回答骨子ですので、例としてあげたものが質問者様の正解に合う合わないは本質的ではありません。機械学習にはモデルの前に、特徴量エンジニアリングが重要です。特徴量エンジニアリングは、既存のデータをもとに、正解データに近い傾向を持つような数値を算出するということです。それが「「人間が見て感じるロジックを愚直にコードに落とす」ことに他なりません。質問者様がそれをできないと感じるのであれば、機械学習もできません。逆にできるのであれば、機械学習をしなくても、それなりにロジックだけで予測することが可能です。イチゼロではなく確率が求めたいとかいうのは本質的ではなく、同様にロジックで0〜1の連続値を出せば良いだけです。まずそれができた上で、複雑なパラメータの重み付けの調整を、回帰等で最適化するのが、機械学習の入り口です。逆に、特徴量エンジニアリングの重要性を抜きに、モデルだけでいけます的な回答が出るようなら、びっくりします。なお、画像認識のような、ごくごく一部の特殊分野は「人間がわかるロジックをコードに表しにくい」かつ「従来型のコードに頼らずに正解らしきものを求めるモデルが存在する」という傾向があり、モデルが役立ちます。このことが必要以上に宣伝されすぎていて、特徴量エンジニアリングを飛ばして機械学種のよいモデルさえ当てはめれば、なんでも解決できるような風潮になっているようです。なお、今回の質問者様の例は，そういうごくごく一部の特殊例に当てはまるような感じはしませんでした。ということが、ご理解いただけていますでしょうか？このやりとりからは全くご理解いたたけていないように思いました。

aheshiyu_tt

2020/11/16 02:48

特徴量エンジニアリングについて調べてみると，一般的な機械学習モデルは膨大なパラメータの関係性から未来を予測するということがほとんどで，特徴量エンジニアリングではそのような膨大なパラメータと正解ラベルとの関係性を見いだし，本当に必要なパラメータを選定し学習させるということが分かりました．今回私が扱うデータ（パラメータ）は，時系列の説明変数1つに対して1つの正解ラベルというシンプルなものです．そのため，特徴量エンジニアリングで選定するほどの変数はありません．しかし，toast-uzさんがおっしゃる通り，特徴量エンジニアリングが「人間が見て感じるロジックを愚直にコードに落とす」ことと等しいということであれば，少しはやりようがあるのかもしれないと思いました．長いこと返信にお付き合いいただきありがとうございました．

行動規範の内容に同意します