LSTMでテストデータの正答率が不自然に良すぎるのは何故でしょうか。

リンク内容
LSTMを使って有る時系列データの予測を行ってみたところ、
不自然に正答率が良すぎる結果となってしまいました。
CSVから読み込んだデータをトレーニング用データとテスト用データに分割し、
トレーニング後にテスト用データを使ってpredictさせています。
Look_backは12で学習は300回行いました。
predictの結果としましては
トレーニングが13.44 RMSEに対して
テストデータ予測時が8.96 RMSEとなりました。
トレーニング用の部分とテスト予測時のデータを見比べてみると
周期的ではないように見えますし、ここまでうまく予測できるはずはないのでは？と考えております。

X(t-11) ～ X(t) までのデータからX(t+1) を予測するというのを繰り返していると考えているのですが、
以下

ソースコードと予測結果のグラフを観て何かおかしな箇所有りますでしょうか？
※グラフはブルーが実際のデータ
オレンジがトレーニング後　トレーニングデータを用いてpredictしたものになります。
緑はテストデータを用いてpredictを行った結果です。

結果が間違っているのでは？と思っておりますが、何か助言頂けないでしょうか？

アドバイスよろしくお願いいたします。

python
1import numpy
2import matplotlib.pyplot as plt
3import matplotlib.ticker as tick # 目盛り操作に必要なライブラリを読み込みます
4import pandas
5import math
6from keras.models import Sequential
7from keras.layers import Dense
8from keras.layers import LSTM
9from sklearn.preprocessing import MinMaxScaler
10from sklearn.metrics import mean_squared_error
11
12#データ読み込み　Yは最初の列に配置する
13dataframe = pandas.read_csv('/root/userspace/Hiwasawa/lesson3/LSTM/LSTMData3.csv', usecols=[2])
14
15
16plt.plot(dataframe.iloc[:,0],label = "DataA")
17
18plt.legend()
19#目盛り関係
20plt.gca().yaxis.set_major_locator(tick.MultipleLocator(500))
21plt.show()
22
23print(dataframe.head())
24
25dataset = dataframe.values
26dataset = dataset.astype('float32')
27
28# normalize the dataset
29scaler = MinMaxScaler(feature_range=(0, 1))
30dataset = scaler.fit_transform(dataset)
31
32# split into train and test sets
33train_size = int(len(dataset) * 0.67)
34test_size = len(dataset) - train_size
35train, test = dataset[0:train_size,:], dataset[train_size:len(dataset),:]
36print(len(train), len(test))
37
38# convert an array of values into a dataset matrix
39# if you give look_back 3, a part of the array will be like this: Jan, Feb, Mar
40def create_dataset(dataset, look_back=1):
41    dataX, dataY = [], []
42    for i in range(len(dataset)-look_back-1):
43        xset = []
44        for j in range(dataset.shape[1]):
45            a = dataset[i:(i+look_back), j]
46            xset.append(a)
47        dataY.append(dataset[i + look_back, 0])      
48        dataX.append(xset)
49    return numpy.array(dataX), numpy.array(dataY)
50
51# reshape into X=t and Y=t+1
52look_back = 12
53trainX, trainY = create_dataset(train, look_back)
54testX, testY = create_dataset(test, look_back)
55print(testX.shape)
56print(testX[0])
57print(testY)
58
59# reshape input to be [samples, time steps(number of variables), features] *convert time series into column
60trainX = numpy.reshape(trainX, (trainX.shape[0], trainX.shape[1], trainX.shape[2]))
61testX = numpy.reshape(testX, (testX.shape[0], testX.shape[1], testX.shape[2]))
62
63
64# create and fit the LSTM network
65model = Sequential()
66model.add(LSTM(4, input_shape=(testX.shape[1], look_back)))	#shape：変数数、遡る時間数
67model.add(Dense(1))
68model.compile(loss='mean_squared_error', optimizer='adam')
69model.fit(trainX, trainY, epochs=300, batch_size=1, verbose=2)
70
71# make predictions
72trainPredict = model.predict(trainX)
73testPredict = model.predict(testX)
74pad_col = numpy.zeros(dataset.shape[1]-1)
75
76# invert predictions
77def pad_array(val):
78    return numpy.array([numpy.insert(pad_col, 0, x) for x in val])
79    
80trainPredict = scaler.inverse_transform(pad_array(trainPredict))
81trainY = scaler.inverse_transform(pad_array(trainY))
82testPredict = scaler.inverse_transform(pad_array(testPredict))
83testY = scaler.inverse_transform(pad_array(testY))
84
85# calculate root mean squared error
86trainScore = math.sqrt(mean_squared_error(trainY[:,0], trainPredict[:,0]))
87print('Train Score: %.2f RMSE' % (trainScore))
88testScore = math.sqrt(mean_squared_error(testY[:,0], testPredict[:,0]))
89print('Test Score: %.2f RMSE' % (testScore))
90
91print(testY[:,0])
92print(testPredict[:,0])
93# shift train predictions for plotting
94trainPredictPlot = numpy.empty_like(dataset)
95trainPredictPlot[:, :] = numpy.nan
96trainPredictPlot[look_back:len(trainPredict)+look_back, :] = trainPredict
97# shift test predictions for plotting
98testPredictPlot = numpy.empty_like(dataset)
99testPredictPlot[:, :] = numpy.nan
100testPredictPlot[len(trainPredict)+(look_back*2)+1:len(dataset)-1, :] = testPredict
101# plot baseline and predictions
102plt.plot((scaler.inverse_transform(dataset))[:,0])
103plt.plot(trainPredictPlot[:,0])
104plt.plot(testPredictPlot[:,0])
105plt.show()

mkgrei

2018/03/23 16:11

データはなにを使っていますか？独自データの場合差し支えなければ載せていただけないでしょうか。

KineSaku

2018/03/23 16:26

コメントありがとうございます。　データですが、teratailへのアップロードの方法が解りませんでしたので、GoogleDriveのリンクを張らせて頂きます。

KineSaku

2018/03/23 16:27

https://drive.google.com/file/d/1cFI4USDzzr9qygxjKEAh7UzGdi02NJa5/view?usp=sharing

KineSaku

2018/03/23 16:29

CSVの３列目DataAが対象のデータとなります。

行動規範の内容に同意します

回答1件

試してみました。

結論から言いますと、問題のセッティングに難がありました。

この評価値をみるのなら、学習したモデルの値よりもTestY[1:]とTestY[:-1]の値のほうがよくなります。

従来の正しいモデルでは前日との差を正しく学習しようとします。

TestとTrainの評価関数の値はひとえにTestデータの質によるものです。

投稿2018/03/24 04:35

mkgrei

総合スコア8562

KineSaku

2018/03/24 09:36

mkgrei様わざわざ試して頂き大変ありがとうございました。 >>この評価値をみるのなら、学習したモデルの値よりもTestY[1:]とTestY[:-1]の値のほうがよくなります。私もRMSEの値を観て何故学習時よりも予測時の方が評価が良いのか疑問に思っておりました。 >>結論から言いますと、問題のセッティングに難がありました出来ましたらもう少し噛み砕いてご説明頂ければ助かります。テストデータがRNNを使うのに相性が悪いという事でしょうか？また、そのような場合なぜ予測時に出力されるデータが実データとピッタリフィッティングされてしまうのでしょうか？ kerasの中で予測が上手く行かない場合は実データを出力するような事が行われているということでしょうか？

mkgrei

2018/03/24 09:45

実はこのモデル、直前のデータを繰り返すというのよりも悪くなっています。ですので、うまく学習できていないのです。正しくモデルを組むには時間の差を予測するものが必要です。今の学習の仕方だと、前の時間との差分というのが値自体と比較すると小さすぎるので、予測の悪さがカモフラージュされています。つまり予測したい値が、ベースラインから比べると誤差にしか見えない状態なのです。もう少ししっかりしたコードを後ほど追記いたします。

KineSaku

2018/03/24 11:40

mkgrei様　お返事ありがとうございます。なるほどですね。何となく仰っていることが解ってきたような気がします。つまり実は予測が上手くいっていないけれど、評価の仕方が良くないので RMSEだと良い評価になってしまっている。ということでしょうか？

mkgrei

2018/03/24 12:47

おっしゃるとおりです。今のままでは直前の値と予測したい値の相関が大きすぎます。差を一度計算してから、その相関を消すことによって正しいモデルになります。

KineSaku

2018/03/24 14:44

コメントありがとうございます。グラフを拡大してみるまで気づかなかったのですが、確かに直前のデータをそのまま出力しておりました。ワンテンポずれたようなグラフになっているだけという事が良く解りました。教えて頂き本当にありがとうございます。因みになのですが、私はグラフを拡大するまでこのことに気づきませんでしたが、 mkgrei様はどのようにしてこの事に気づかれたのでしょうか？具体的に観るべき数値とその解釈を教えて頂きたいです。長々とすみませんが、ようやく理解が進み始めた気がします。何卒よろしくお願いいたします。

mkgrei

2018/03/25 02:42

確かめたことの順番は：プラスアルファの情報がないのにさすがに精度良く学習できるのはおかしいという前提からはじめました。モデルが既にあったので、最初にデータのリークがないか確かめました。 Scalerがあったので、スケール変換によって値の大きさに変調がないのかを次に確かめました。それらに問題がなかったので、モデルを見てみると、活性化関数がなかったので、これはますますおかしいということがわかりました。グラフをみる限り、結構ランダムなデータだったので、予測がうまく行かなさそうです。そこで、ベースラインのモデルと比較してみようと思いました。時系列データの場合、最も簡単なモデルは線形以前に、直前の値を繰り返すというものです。そこで、直前の値を繰り返すだけで元のモデルより評価値がよくなっていました。すると時系列データを差分を予測していないせいであることがわかったわけです。 --- 本来定量的な評価値に意味を持たせるためには、ベースラインを設ける必要があります。例えば分類問題の場合、全部1つのクラスに分類した場合の評価値をもっておくわけです。時系列の場合デフォルトを0に持ってきてから、オール0の値を比較します。

KineSaku

2018/03/25 09:38

コメントありがとうございます。なるほどですね。確認した順序、とても参考になります。 >>すると時系列データを差分を予測していないせいであることがわかったわけです。早速前進差分による微分値で試してみたところ少し改善したように思います。また、活性化関数ですが、kerasのLSTMのページを観ると keras.layers.LSTM(units, activation='tanh', recurrent_activation='hard_sigmoid', use_bias=True, kernel_initializer='glorot_uniform', recurrent_initializer='orthogonal', bias_initializer='zeros', unit_forget_bias=True, kernel_regularizer=None, recurrent_regularizer=None, bias_regularizer=None, activity_regularizer=None, kernel_constraint=None, recurrent_constraint=None, bias_constraint=None, dropout=0.0, recurrent_dropout=0.0, implementation=1, return_sequences=False, return_state=False, go_backwards=False, stateful=False, unroll=False) となっているのですが、 activation='tanh'　これが初期値ということでしょうか？基礎的な質問で申し訳ありません。何も設定していない場合どうなるのでしょうか？

mkgrei

2018/03/25 09:58

失礼しました。おっしゃる通り、何も設定しなかった場合、デフォルト値になり、LSTMの場合tanhですね。 Denseなどがactivation=Noneがデフォルトなので、思い込みがありました。勉強になりました。ありがとうございます。

KineSaku

2018/03/26 16:40

こちらこそ大変貴重なアドバイスを有難うございます。現状1,0で上がるか下がるかを判定させるように問題を置き換えることで５０％くらいの正答率は出るようになりました。 One-Hot化してもう少し細かい結果も解るように改善してみたいと思っております。

行動規範の内容に同意します