LSTMでの予測がうまくいかない

TensorFlowを用いてLSTMモデルを構築し、ディスク使用量の予測をしてみようとしているのですが、予測部分がうまくいかない状態です。
学習曲線は収束しているのですが、未来のデータに対する予測ができないようです。
初心者のRNN(LSTM) | Kerasで試してみるを参考にしておりますが、未来のデータの生成部分があまり理解できておりません。
ディスク使用量データは四万行強ほどあるデータです。これといって目立つような異常値や欠損値はない状態です。下記はPandasでCSVを読み込んだあとに、describe()メソッドを呼んだ際の出力です。

count               41280.000000
mean                   43.636047
std                    15.434929
min                    17.000000
25%                    30.000000
50%                    44.000000
75%                    57.000000
max                    75.000000

ソースコードは下記のようにしております。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn.preprocessing import StandardScaler, MinMaxScaler

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Activation
from tensorflow.keras.layers import LSTM
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.callbacks import EarlyStopping

import tensorflow as tf


df = pd.read_csv("disk.csv", index_col=0, parse_dates=True)
df = df.sort_index()
df = df.dropna()
print(df.describe())

dataset = df.iloc[:, 0].values
dataset = np.array(dataset).reshape(len(dataset), -1)
scaler = MinMaxScaler()
dataset = scaler.fit_transform(dataset)

def make_dataset(dataset, lookback=7):
    data, target = [], []

    for i in range(len(dataset) - lookback):
        data.append(dataset[i:i+lookback])
        target.append(dataset[i+lookback])

    data = np.array(data)
    target = np.array(target)

    re_data = data.reshape(len(data), lookback, 1)
    re_target = target.reshape(len(data), 1)

    return re_data, re_target

lookback = 1000
X, y = make_dataset(dataset, lookback)
print(X.shape)
print(y.shape)

def model_fit():
    model = Sequential()
    model.add(
            LSTM(100, batch_input_shape=(None, X.shape[1], 1), return_sequences=False)
            )
    model.add(Dense(1))
    model.add(Activation('linear'))
    optimizer = Adam(lr=0.001)
    model.compile(loss="mean_squared_error", optimizer=optimizer)
    early_stopping = EarlyStopping(monitor="val_loss", mode="auto", patience=20)
    history = model.fit(
            X, y,
            batch_size=512,
            epochs=500,
            validation_split=0.3,
            callbacks=[early_stopping]
            )
    model.save("disk_model.h5")

    loss = history.history["loss"]
    val_loss = history.history["val_loss"]
    epochs = range(len(loss))

    plt.figure(figsize=(10, 5))
    plt.plot(epochs, loss, color="r", label="Training loss")
    plt.plot(epochs, val_loss, color="b", label="Validation loss")
    plt.legend(fontsize=20)
    plt.show()

model_fit()

model = tf.keras.models.load_model("disk_model.h5")
predicted = model.predict(X)

future_test = X[-1].T
time_length = future_test.shape[1]
future_result = np.array((1))

for step2 in range(400):
    test_data = np.reshape(future_test, (1, time_length, 1))
    batch_predicted = model.predict(test_data)

    future_test = np.delete(future_test, 0)
    future_test = np.append(future_test, batch_predicted)
    future_result = np.append(future_result, batch_predicted)

plt.figure(figsize=(15, 5))
plt.plot(range(lookback, len(predicted)+lookback), predicted, color="r", label="predicte_data")
plt.plot(range(0, len(dataset)), dataset, color="b", label="row_data")
plt.plot(range(0+len(dataset), len(future_result)+len(dataset)), future_result, color="g", label="future")
plt.legend()
plt.show()

上記のコードを実行すると最終的に下記のグラフがプロットされます。

個人的には右端の緑色の予測部分も青色部分と同じ振幅を持っていてほしかったのですが、なぜか0.5未満の値が含まれていないようでした。

こちらのソースコードだと適切に予測できないということでしょうか？
どの辺が問題になっているのかがわからず、調べることさえできない状態です。。。
初歩的なことで申し訳ありませんが、ご教示いただけますと幸いです。よろしくお願いいたします

行動規範の内容に同意します

回答1件

ベストアンサー

最後の図を見る限り、過学習をしていると思われます。
まずは、train, validation, testにデータを分けた上でモデルの性能を評価するべきだと思います。

また、ディスクの使用量を予測させるとのことですが、
機械学習は魔法ではないので、その中からある程度の規則性を見出すことができない状態では正しく学習は行なえません。
学習がうまく行かないと思ってパラメータ数を増やすと、本来学習したい特徴ではない特徴を学習してしまい、訓練データに過剰に適合してしまう過学習という問題が起こります。
そのあたりをもう一度詳しく勉強していただいてそのデータのみで本当に予測できるのかどうかを考えてみてはいかがでしょうか？

投稿2021/04/12 10:18

編集2021/04/12 10:20

BoKuToTuZenU

総合スコア51

Ykkykk

2021/04/13 00:02

ご回答いただきありがとうございます。やはり過学習しているということなのですね。。。ディスク使用量自体ははっきりと予測できなくても良く、上記のQiitaの記事をやってみたので、自分でもなんらかの周期性のありそうなデータで予測っぽいことができないかな、と思った次第です。特徴をつかむことやデータの前処理や選択自体について検討したいと思います。基本的なことで申し訳ありませんでした。ありがとうございます。

BoKuToTuZenU

2021/04/13 06:01

過学習しているかどうかを確かめる方法として、訓練データ、検証データ、テストデータに分けて評価する方法があるかと思います。そうすることで、過学習しているかどうかや、ハイパーパラメータがどのような値を取ればうまく学習できるかどうかを確認することができるかと思います。データのそれぞれの役割としては、訓練データ->機械学習のモデル（今回はLSTM）を学習するためのデー% 検証データ->ハイパーパラメータがちょうど良いかを確認するためのデータテストデータ->モデルの汎化性能（モデルが見たことのないデータでどれほど正確に予測できるか）をテストするデータこちらは機械学習の本を見ればだいたい書いてあると思います。

Ykkykk

2021/04/13 07:21

再度コメントくださりありがとうございます。その後上記のデータに対して、最初の3000行を学習と検証に使用し（model.fitでvalidation_split=0.3としました）、3001行目から4000行目をモデルの学習後のテストデータとして与えてみた（model.predictに渡した）ところ、テストデータだと思っているデータに対してもそれなりにあっていたのですが、これは学習できているということなのでしょうか？？？漠然とした質問ですみません。

BoKuToTuZenU

2021/04/15 08:09

テストデータに対してうまく予測できている（予測できているかどうかはモデルを作った人の評価次第です）ならば学習できていると考えても差し支えないかと思います。

行動規範の内容に同意します