LSTMのバッジによる学習では時系列が前後してしまうのではないでしょうか？

https://arakan-pgm-ai.hatenablog.com/entry/2017/09/03/080000
こちらのサイトではバッチは
ーーーーーーーーーーーーーーーーーーーーーーー
仮にそれを100件とした場合、学習時には1500件の中から100件のデータをランダムに選び出して学習をします。
ーーーーーーーーーーーーーーーーーーーーーーー
と書かれています。

時系列データの場合、ランダムに選び出したら時系列が前後してしまい、正しく学習できないのではないでしょうか？

行動規範の内容に同意します

回答2件

ベストアンサー

結論としては、時系列データであっても、ミニバッチ学習は問題ありません。

質問者様が示したサイトは、画像を扱う例ですので、LSTMの例を探したほうがイメージがつかめると思います。

参考: Kerasで最短(?)LSTM実装

上記のサイトを参照したいただいた前提で説明します。
（ちなみに、このサイトの例では、batch_size = 20としており、しっかりとミニバッチ学習をしています）

まず、時系列データの学習とは、上記のサイトでの図の青い部分の情報をすべて学習に使い、ピンクの部分を逐次的に予測できるモデルを生成することです。そのため、青い部分の情報を使う順序は問題無く、ランダムにミニバッチが選択されても大丈夫です。一方、学習時点でピンクの部分は知らない前提ですし、推論時でも時系列順にしか知るすべはありません。このピンクの部分を予め知ってしまって学習に組み込むと「リーク」が発生し、正常な学習ができなくなります。

要するに、青い部分を「知ること」については時系列順序は意識する必要はなく、ピンクの部分を「知ること」については時系列順序を意識する必要がある、ということです。なお、これは「知ること」すなわち学習情報として使ってよいかについての話であり、モデルとして時系列を意識した（LSTM型の）ものにしておく話とは別です。

投稿2021/10/02 01:42

編集2021/10/02 01:45

toast-uz

総合スコア3266

Mitsuki_0

2021/10/02 02:33

回答ありがとうございます。少し整理させて頂きたいのですが仮に1000件のデータを持っていたとして 1~900件を学習用データ、901~1000件を検証用データに分け学習用データでLSTMのモデル作成すれば「リーク」は発生しないかと思います。ただ、バッジは1~900件の中をランダムに学習するので時系列データではランダムに選んだデータの答えはその次のデータになるので、学習に支障をきたすのではないかと思うのですが、、、。例）バッジサイズが「3」の場合 1~900の内、10番目・500番目・700番目のデータで学習することになり、その答えである11番目・501番目・701番目がない状態で学習するのではないでしょうか？ toast-uz様は「知ること」と表現されておりますが、学習用のデータを1~900件と定めていることで LSTMでは11番目・501番目・701番目を知った状態で 10番目・500番目・700番目のデータを学習している、という事になるのでしょうか？

toast-uz

2021/10/02 03:22 編集

window_size=1であれば、質問者様のご理解の通りです（window_sizeが変われば入力データが増えるだけなので、今回のリークの件とは無関係です）。学習とは、入力と出力（正解）をともに知った状態で、モデルを最適化することです。もともと、青い部分の情報（質問者様の例では1〜900件）をすべて知った上で、グラフの傾向や周期などを学び取って、将来のピンクの部分（901〜1000件）を予測するのが、LSTMです。すべての情報（1〜900件）を使ってよいバッチ学習が理論的な前提であり、ミニバッチ学習で乱択するのは学習を効率化する手段に過ぎません。なので、乱択であちこちのデータをつまみ食いするのは、「知っていることになっているデータの範囲（1〜900件）」の中である限り、問題ありません。901〜1000件の情報を使わなければよいのです。

Mitsuki_0

2021/10/02 03:24

なるほど、理解しました！ありがとうございます。

行動規範の内容に同意します