編集履歴

回答編集履歴

誤字の修正

2020/10/24 12:40

投稿

スコア3266

answer CHANGED Viewed

@@ -59,7 +59,7 @@
 ```
 「ズラし」はdfdのところだけを後ろに、dfpとdfoは余計にズラしません。またズラしが無効にならないようにreset_indexでindexを振りなおします。concatでまとめる時に、nanがある行は捨てるほうがよいです。
-なお、全体の結果を擬似データで確認すると、30分後の予測、1日後の予測は観測との差が少なく、半日後の予測はそれなりではあるものの観測との差はやや大きい結果になるでしょう。これは当たり前のことで、LSTMはRNNよりは改善されていますが、それでも、昔よりは最近のことにより強く影響されるモデルだからです。1日単位の周期性があるデータは、半日後よりも1日後の方が「今」と類似しています。そのため、半日後予測よりも1日語後予測の方が、正確に予測しているようにみえるわけです。
+なお、全体の結果を擬似データで確認すると、30分後の予測、1日後の予測は観測との差が少なく、半日後の予測はそれなりではあるものの観測との差はやや大きい結果になるでしょう。これは当たり前のことで、LSTMはRNNよりは改善されていますが、それでも、昔よりは最近のことにより強く影響されるモデルだからです。1日単位の周期性があるデータは、半日後よりも1日後の方が「今」と類似しています。そのため、半日後予測よりも1日後予測の方が、正確に予測しているようにみえるわけです。
 100日もデータがあるわけですので、単純なLSTMを適用するのではなく、モデルを工夫してチューニングしてみることをオススメします。個人的には、周期性を考えて、30分後、1日後、5日後（五十日？の周期）、1週間後（平日週末の周期）、などをアンサンブルしてみるとよいかと思います。

補足追記

2020/10/24 12:40

投稿

toast-uz

スコア3266

answer CHANGED Viewed

@@ -59,7 +59,7 @@
 ```
 「ズラし」はdfdのところだけを後ろに、dfpとdfoは余計にズラしません。またズラしが無効にならないようにreset_indexでindexを振りなおします。concatでまとめる時に、nanがある行は捨てるほうがよいです。
-なお、全体の結果を擬似データで確認すると、30分後の予測、1日後の予測は観測との差が少なく、半日後の予測はそれなりではあるものの観測との差はやや大きい結果になるでしょう。これは当たり前のことで、LSTMは最近のことをよく覚えているモデルだからです。1日単位の周期性があるデータは、半日後よりも1日後の方が「今」と類似しています。そのため、半日後予測よりも1日語後予測の方が、正確に予測しているようにみえるわけです。
+なお、全体の結果を擬似データで確認すると、30分後の予測、1日後の予測は観測との差が少なく、半日後の予測はそれなりではあるものの観測との差はやや大きい結果になるでしょう。これは当たり前のことで、LSTMはRNNよりは改善されていますが、それでも、昔よりは最近のことにより強く影響されるモデルだからです。1日単位の周期性があるデータは、半日後よりも1日後の方が「今」と類似しています。そのため、半日後予測よりも1日語後予測の方が、正確に予測しているようにみえるわけです。
 100日もデータがあるわけですので、単純なLSTMを適用するのではなく、モデルを工夫してチューニングしてみることをオススメします。個人的には、周期性を考えて、30分後、1日後、5日後（五十日？の周期）、1週間後（平日週末の周期）、などをアンサンブルしてみるとよいかと思います。

問題の修正にあわせた修正

2020/10/24 12:03

投稿

toast-uz

スコア3266

answer CHANGED Viewed

@@ -1,3 +1,85 @@
-LSTMだと違うのかもしれませんが、バリデーションデータを使ってテスト（予測）していることが問題なのではないでしょうか？
+予測以降の処理において、入力に対する正解の時間差pred_timeの扱いに間違っている部分があるようです。
-[なぜ教師あり学習でバリデーションセットとテストセットを分ける必要があるのか？](https://qiita.com/QUANON/items/ae569961ea02b4468e23)
+以下のコードにおいて、predは予測値ですので、x_testをもとにpred_time後の予測となっています。
+また、t_testはもともとpred_time後の正解値です。よって、predとobsの時間差は既に無い状態です。
+```Python
+pred = model.predict(x_test )         #予測値
+obs = t_test
+```
+にもかかわらず、以下のコードにおいてobsだけをpred_timeずらしています。この行為は意味がなく、これが結果に影響していると考えられます。
+```Python
+#最初の1日を削除
+dfd = dfd[int(time):]
+dfp = dfp[int(time):]
+dfo = dfo[int(time - pred_time):]
+```
+ただし、この後にconcatしていることで上記の「ずらし」が複雑に作用します。Pandasでは明示的にindex振り直しを指示しない限り、元のindexを維持する形で処理されます。よってconcatの時点で「ずらし」は補正されてしまいます。結局「ずらし」は、頭に余計にNanを作る効果しかもたらせていません。
+擬似的な交通量を生成して、質問者様のコードを実行した結果、concat後のデータフレームは以下の形でした。（date_timeは日を単位とするfloatにしています）
+```
+       date_time  Pt_pred       Pt_obs
+720          NaN      NaN  4211.390625
+721          NaN      NaN  4310.817383
+722          NaN      NaN  4800.063477
+723          NaN      NaN  3912.796387
+724          NaN      NaN  5271.840820
+...          ...      ...          ...
+28795  99.996528      NaN          NaN
+28796  99.997222      NaN          NaN
+28797  99.997917      NaN          NaN
+28798  99.998611      NaN          NaN
+28799  99.999306      NaN          NaN
+```
+上記にもかかわらず、質問者様の半日後の結果がズレてみえるのは、csv保存以降の処理で上記の、Pt_predとPt_obsの頭のズレが影響しているように思われます。この点はコードが明示されていないので推測ですが、少なくとも意味の無い「ズラし」が入っているため、これが原因の可能性が高いです。
+実際、擬似データをもとに、質問者様のコードに
+```Python
+plt.plot(df['date_time'], df[['Pt_pred', 'Pt_obs']])
+plt.show()
+```
+を付け加えると、半日後であっても、それなりに予測〜観測が一致したグラフが出ます。
+なお、本来あるべきコードは以下です。
+```Python
+#最初の1日を削除
+dfd = dfd[int(time + pred_time):].reset_index(drop=True)
+dfp = dfp[int(time):].reset_index(drop=True)
+dfo = dfo[int(time):].reset_index(drop=True)
+#predとobsのDataFrameを一つにまとめる
+df = pd.concat([dfd, dfp, dfo], axis=1).dropna()
+```
+「ズラし」はdfdのところだけを後ろに、dfpとdfoは余計にズラしません。またズラしが無効にならないようにreset_indexでindexを振りなおします。concatでまとめる時に、nanがある行は捨てるほうがよいです。
+なお、全体の結果を擬似データで確認すると、30分後の予測、1日後の予測は観測との差が少なく、半日後の予測はそれなりではあるものの観測との差はやや大きい結果になるでしょう。これは当たり前のことで、LSTMは最近のことをよく覚えているモデルだからです。1日単位の周期性があるデータは、半日後よりも1日後の方が「今」と類似しています。そのため、半日後予測よりも1日語後予測の方が、正確に予測しているようにみえるわけです。
+100日もデータがあるわけですので、単純なLSTMを適用するのではなく、モデルを工夫してチューニングしてみることをオススメします。個人的には、周期性を考えて、30分後、1日後、5日後（五十日？の周期）、1週間後（平日週末の周期）、などをアンサンブルしてみるとよいかと思います。
+以下補足として、私が擬似データを作成するために使ったコードを示します。
+```Python
+import numpy as np
+from scipy.interpolate import interp1d
+# 擬似的にdays日分の1分間隔の交通量を生成
+days = 100
+# まずは1日分作成、1日4つの時点のみ、質問者様のグラフを見て目分量でプロット
+linear_interp = interp1d([0, 4, 7, 15, 24], [5000, 3000, 13000, 14000, 5000])
+# 上記を直線で補間して1分間隔のデータにする
+linear_results = linear_interp(np.linspace(0, 24, 24*60))[:-1]
+# それを単純結合してdays日分にする
+linear_results_days = np.array(linear_results.tolist() * days)
+# ノイズを加える
+noise = np.random.normal(0, 500, linear_results_days.shape)
+Pt = linear_results_days + noise
+# dateは1日を1.0のスケールにする
+date = np.linspace(0, days, 24*60*days)[:-1]
+```