質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

87.37%

機械学習 時系列データの特徴抽出

解決済

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 2,296

score 6

使用するデータ

使用するデータは以下のような短時間の時系列データです.

左の画像:右方向の短時間時系列データ
右の数字:その時系列に対する教師データ(0または1)

使用するデータ1(時系列データと教師データ)
使用するデータ2(時系列データと教師データ)

※このような短時間の時系列データとそれに対応する教師データは約1000件ほどあります.

データの特徴(ヒトが見た感じ)

ヒトが上記に示した使用する2件データを見ると,

  • 時系列データの最終データが小さければ,0になりやすい
  • 時系列データの最終データが大きければ,1になりやすい

という特徴が見えてくるはずです.
※2件では断定できませんが,全データを見た場合でも上記のような特徴をつかめています(ヒト).

機械学習によって特徴をつかみたい

上記に示す,ヒトでは感じ取れるデータの特徴を機械学習によって学習できないかと模索しております.

ただデータの特徴というだけでは抽象的すぎるため,実際に得られてほしいデータとしては,1になる確率です.

ヒトが感じる「最終データが大きければ1になりやすい」というのは言い換えると「1になる確率」とも言えます.
したがって,学習モデルから必要とする最終的なデータとしては1になる確率です.

現在分かっていること

このような問題は2値分類に相当すると考えています.すなわち,学習時の最終層にはsigmoid関数を用意し,1になる確率を算出するのだと思います.
また,現在はKerasのSimpleRNNを用いて以下のようなモデルを構成しています.

model = Sequential()
model.add(Masking(mask_value=-1, input_shape=(None, 1)))
model.add(SimpleRNN(units=16, activation='tanh'))
model.add(Dense(units=1, activation='sigmoid'))

なお,このモデルの結果ですが,あまり良い結果は得られていません.

実現したいこと(最後に)

  • データの特徴をつかむための学習方法として現在実装しているSimpleRNNが適切であるかどうか
  • 上記で示した現在実装している方法以外でより良いものはないか

よろしくお願いします.  

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

0

いちおう「機械学習」タグ別月間ランキングNo.1となっている立場でお答えします。

機械学習を実践で使いたいと考えられているのか、機械学習を学問や技術として学びたいのか、で回答は変わります。

前者であれば、機械学習を使おうと最初から考えるのはやめましょう。
この問題であれば、

if 最終データ > 20:
    予測値 = 1
else
    予測値 = 0

を組み込めば十分です。要するに人間が見て感じるロジックを、愚直にコードに落とすのがよいです。

参考: 機械学習システムのアーキテクチャアラカルト
スライド18: 「BrainPadの開発エンジニアが機械学習システムを構築する場合、以下の順番で検討することが多い 1. やりたいことに機械学習は本当に必要か?」

後者であっても、時系列だからRNNだーとか、LSTMだーとかに飛びつくのはやめて、普通の回帰やせいぜいニューラルネットを使いましょう。時系列専用のモデルは、パターンにハマれば強いですが、ハマらない場合のが経験的に多いです。

参考 : ディープラーニングで株価予測するときの罠

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2020/11/09 14:38 編集

    ご返信ありがとうございます.

    提示されたやり方で実際にやってみたところ,2値分類における正解率は78%と一見良い結果が得られました.
    しかしラベルの0と1について,実際のところ0の数の方が1の数に比べて圧倒的に多いということもあり,提示されたプログラムの

    if 最終データ > 最終データの1つ前:
    予測値 = 1
    else
    予測値 = 0

    では,とりあえず0に分類すれば良い結果が得られてしまうということが分かりました.
    そこで,プログラムの条件式に「=」を追加して再び実行してみました.

    if 最終データ >= 最終データの1つ前:
    予測値 = 1
    else
    予測値 = 0

    結果としては正解率は20%程度となってしまい,やはり「1」という正確な予測は難しいことが分かりました.

    ※10個前のデータを用いても条件式による上記の違いが出ました.

    ここまで丁寧に教えていただいて本当にありがたいのですが,申し訳ないのですが,私が実装したいのはこのような2値分類ではありません.
    元の質問文にも書いています通り,「1である確率」が結果として欲しいのです.

    欲しい結果が確率である理由としては,最終的にそのモデルを検証する段階において以下のような検証をして,モデルの予測精度を測りたいからです.
    例えば60%という予測を例に挙げますと,

    「1である確率は60%である」と予測した回数 → x回
    「テストデータも本当に1である」回数 → y回

    このとき,y/x の値が 0.6(60%) に近くなっていればこの機械学習モデル(アルゴリズムモデル)の精度は高いと判断できます.
    ※このような検証方法の一般的な名称を知らないため説明が分かりにくいかもしれません.
    このようなモデルを実装したいというのが狙いです.

    キャンセル

  • 2020/11/09 19:06 編集

    「「人間が見て感じるロジック」を愚直にコードに落とすだけ」というのが私の回答骨子ですので、例としてあげたものが質問者様の正解に合う合わないは本質的ではありません。機械学習にはモデルの前に、特徴量エンジニアリングが重要です。特徴量エンジニアリングは、既存のデータをもとに、正解データに近い傾向を持つような数値を算出するということです。それが「「人間が見て感じるロジックを愚直にコードに落とす」ことに他なりません。質問者様がそれをできないと感じるのであれば、機械学習もできません。逆にできるのであれば、機械学習をしなくても、それなりにロジックだけで予測することが可能です。イチゼロではなく確率が求めたいとかいうのは本質的ではなく、同様にロジックで0〜1の連続値を出せば良いだけです。まずそれができた上で、複雑なパラメータの重み付けの調整を、回帰等で最適化するのが、機械学習の入り口です。

    逆に、特徴量エンジニアリングの重要性を抜きに、モデルだけでいけます的な回答が出るようなら、びっくりします。なお、画像認識のような、ごくごく一部の特殊分野は「人間がわかるロジックをコードに表しにくい」かつ「従来型のコードに頼らずに正解らしきものを求めるモデルが存在する」という傾向があり、モデルが役立ちます。このことが必要以上に宣伝されすぎていて、特徴量エンジニアリングを飛ばして機械学種のよいモデルさえ当てはめれば、なんでも解決できるような風潮になっているようです。なお、今回の質問者様の例は,そういうごくごく一部の特殊例に当てはまるような感じはしませんでした。

    ということが、ご理解いただけていますでしょうか?このやりとりからは全くご理解いたたけていないように思いました。

    キャンセル

  • 2020/11/16 11:48

    特徴量エンジニアリングについて調べてみると,一般的な機械学習モデルは膨大なパラメータの関係性から未来を予測するということがほとんどで,特徴量エンジニアリングではそのような膨大なパラメータと正解ラベルとの関係性を見いだし,本当に必要なパラメータを選定し学習させるということが分かりました.

    今回私が扱うデータ(パラメータ)は,時系列の説明変数1つに対して1つの正解ラベルというシンプルなものです.そのため,特徴量エンジニアリングで選定するほどの変数はありません.しかし,toast-uzさんがおっしゃる通り,特徴量エンジニアリングが「人間が見て感じるロジックを愚直にコードに落とす」ことと等しいということであれば,少しはやりようがあるのかもしれないと思いました.

    長いこと返信にお付き合いいただきありがとうございました.

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 87.37%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る