リンク内容
LSTMを使って有る時系列データの予測を行ってみたところ、
不自然に正答率が良すぎる結果となってしまいました。
CSVから読み込んだデータをトレーニング用データとテスト用データに分割し、
トレーニング後にテスト用データを使ってpredictさせています。
Look_backは12で学習は300回行いました。
predictの結果としましては
トレーニングが13.44 RMSEに対して
テストデータ予測時が8.96 RMSEとなりました。
トレーニング用の部分とテスト予測時のデータを見比べてみると
周期的ではないように見えますし、ここまでうまく予測できるはずはないのでは?と考えております。
X(t-11) ~ X(t) までのデータからX(t+1) を予測するというのを繰り返していると考えているのですが、
以下
ソースコードと予測結果のグラフを観て何かおかしな箇所有りますでしょうか?
※グラフはブルーが実際のデータ
オレンジがトレーニング後 トレーニングデータを用いてpredictしたものになります。
緑はテストデータを用いてpredictを行った結果です。
結果が間違っているのでは?と思っておりますが、何か助言頂けないでしょうか?
アドバイスよろしくお願いいたします。
python
1import numpy 2import matplotlib.pyplot as plt 3import matplotlib.ticker as tick # 目盛り操作に必要なライブラリを読み込みます 4import pandas 5import math 6from keras.models import Sequential 7from keras.layers import Dense 8from keras.layers import LSTM 9from sklearn.preprocessing import MinMaxScaler 10from sklearn.metrics import mean_squared_error 11 12#データ読み込み Yは最初の列に配置する 13dataframe = pandas.read_csv('/root/userspace/Hiwasawa/lesson3/LSTM/LSTMData3.csv', usecols=[2]) 14 15 16plt.plot(dataframe.iloc[:,0],label = "DataA") 17 18plt.legend() 19#目盛り関係 20plt.gca().yaxis.set_major_locator(tick.MultipleLocator(500)) 21plt.show() 22 23print(dataframe.head()) 24 25dataset = dataframe.values 26dataset = dataset.astype('float32') 27 28# normalize the dataset 29scaler = MinMaxScaler(feature_range=(0, 1)) 30dataset = scaler.fit_transform(dataset) 31 32# split into train and test sets 33train_size = int(len(dataset) * 0.67) 34test_size = len(dataset) - train_size 35train, test = dataset[0:train_size,:], dataset[train_size:len(dataset),:] 36print(len(train), len(test)) 37 38# convert an array of values into a dataset matrix 39# if you give look_back 3, a part of the array will be like this: Jan, Feb, Mar 40def create_dataset(dataset, look_back=1): 41 dataX, dataY = [], [] 42 for i in range(len(dataset)-look_back-1): 43 xset = [] 44 for j in range(dataset.shape[1]): 45 a = dataset[i:(i+look_back), j] 46 xset.append(a) 47 dataY.append(dataset[i + look_back, 0]) 48 dataX.append(xset) 49 return numpy.array(dataX), numpy.array(dataY) 50 51# reshape into X=t and Y=t+1 52look_back = 12 53trainX, trainY = create_dataset(train, look_back) 54testX, testY = create_dataset(test, look_back) 55print(testX.shape) 56print(testX[0]) 57print(testY) 58 59# reshape input to be [samples, time steps(number of variables), features] *convert time series into column 60trainX = numpy.reshape(trainX, (trainX.shape[0], trainX.shape[1], trainX.shape[2])) 61testX = numpy.reshape(testX, (testX.shape[0], testX.shape[1], testX.shape[2])) 62 63 64# create and fit the LSTM network 65model = Sequential() 66model.add(LSTM(4, input_shape=(testX.shape[1], look_back))) #shape:変数数、遡る時間数 67model.add(Dense(1)) 68model.compile(loss='mean_squared_error', optimizer='adam') 69model.fit(trainX, trainY, epochs=300, batch_size=1, verbose=2) 70 71# make predictions 72trainPredict = model.predict(trainX) 73testPredict = model.predict(testX) 74pad_col = numpy.zeros(dataset.shape[1]-1) 75 76# invert predictions 77def pad_array(val): 78 return numpy.array([numpy.insert(pad_col, 0, x) for x in val]) 79 80trainPredict = scaler.inverse_transform(pad_array(trainPredict)) 81trainY = scaler.inverse_transform(pad_array(trainY)) 82testPredict = scaler.inverse_transform(pad_array(testPredict)) 83testY = scaler.inverse_transform(pad_array(testY)) 84 85# calculate root mean squared error 86trainScore = math.sqrt(mean_squared_error(trainY[:,0], trainPredict[:,0])) 87print('Train Score: %.2f RMSE' % (trainScore)) 88testScore = math.sqrt(mean_squared_error(testY[:,0], testPredict[:,0])) 89print('Test Score: %.2f RMSE' % (testScore)) 90 91print(testY[:,0]) 92print(testPredict[:,0]) 93# shift train predictions for plotting 94trainPredictPlot = numpy.empty_like(dataset) 95trainPredictPlot[:, :] = numpy.nan 96trainPredictPlot[look_back:len(trainPredict)+look_back, :] = trainPredict 97# shift test predictions for plotting 98testPredictPlot = numpy.empty_like(dataset) 99testPredictPlot[:, :] = numpy.nan 100testPredictPlot[len(trainPredict)+(look_back*2)+1:len(dataset)-1, :] = testPredict 101# plot baseline and predictions 102plt.plot((scaler.inverse_transform(dataset))[:,0]) 103plt.plot(trainPredictPlot[:,0]) 104plt.plot(testPredictPlot[:,0]) 105plt.show()
