翌日の電力予測精度の問題(Python)

前提・実現したいこと

pycharm(python3.8,)を使い電力需要予測をやりました。
ランダムフォレストを使い、翌日の需要予測を繰り返し行ったのですが、精度が良すぎた(MAPEが３％程度)
ためプログラムが間違ってるのではないかと疑っています。
このプログラムでは学習期間(train)と予測期間(test)にわけ、翌日予測を繰り返し行い、その度に学習期間を増えていくというプログラムを書いたつもりです。

問題が発生してると思われる部分

for i in range(0,130,1): #range([開始,] 終了 [,ステップ])
 x_train,y_train = x[:N_train+i*24],y[:N_train+i*24] #多分1回ごとに訓練期間が1日分長くなる
 x_test,y_test = x[N_train:N_train+i*24+24],y[N_train:N_train+i*24+24] #多分1日予測を繰り返してる

該当のソースコード

import numpy as np
import pandas as pd
import seaborn as sb
import matplotlib.pyplot as plt
from datetime import datetime

df = pd.read_csv('data.csv')
df2 = pd.read_csv('demand_分類.csv',skiprows=1)  



print(df)
#print(df2)
df.columns = ['date','hour','demand','sea_pressure','pressure','wind1','wind2','temp',
             'RH','cloud1','cloud2','cloud3','cloud4','HP','SR','Ta','year','day2','hour2','number']   #1行目を列ラベルを置き換え
df2.columns = ['date2','hour2','HPあり','HPなし']
#print(df)
df.drop([0]).reset_index(drop = True)  #0,1行だけ駆除
#df.reset_index(drop = True) #index番号を振りなおす
df = df.drop(['sea_pressure','pressure','wind1','wind2',
             'RH','cloud1','cloud2','cloud3','cloud4','HP','SR','Ta','year','day2','hour2','number'],axis = 1)    #anxis=0だと横方向削除
df2.drop([0,1]).reset_index(drop = True)  #0,1行だけ駆除
df2 = df2.drop(['date2','hour2'],axis = 1)    #
df['HP_ari']=df2['HPあり']
df['HP_nasi']=df2['HPなし']
print(df)

#df.info()   #型などの情報が出る
df['datetime'] = pd.to_datetime(df['date'] + ' ' + df['hour'].astype(str) + ':00', format='%Y-%m-%d %H:%M')
print(df['datetime'])
df['平均気温(℃)']=pd.to_numeric(df['temp'])  #numeric　数字型(float64)
df['平均気温(℃)']=df['平均気温(℃)']-273.15
print(df)


#plt.figure(figsize=(8,4))
#plt.plot(df['datetime'],df['平均気温(℃)'])
#plt.show()

#print(df.describe())   #dfの詳細がわかる
df['POSIX']=df['datetime'].astype(np.int64).values//10**9    #datetime→POSIX型へ
x= df['POSIX'].values
y=df['demand'].values
N=len(x)    #xの長さがわかる(データの個数)
print(N)

len(x)*0.8

N_train = round(len(x)*0.8) #整数に　四捨五入
#print(N_train)
N_test = N-N_train
print(N_test)
x=x.reshape(-1,1)   #ランダムフォレストはreshape(-1,1)までの形に直す必要がある
y=y.reshape(-1,1)    #ランダムフォレストはreshape(-1,1)までの形に直す必要がある

for i in range(0,130,1): #range([開始,] 終了 [,ステップ])

 x_train,y_train = x[:N_train+i*24],y[:N_train+i*24] #多分1回ごとに訓練期間が1日分長くなる
 x_test,y_test = x[N_train:N_train+i*24+24],y[N_train:N_train+i*24+24] #多分1日予測を繰り返してる
 y_train=np.reshape(y_train,(-1))    #1次元に変換
 y_test=np.reshape(y_test,(-1))  #1次元に変換
print(x_train)
print('i',i)
from sklearn.ensemble import RandomForestRegressor
rf = RandomForestRegressor(random_state = 1)   
rf.fit(x_train,y_train)

y_pred = rf.predict(x_test)
y_pred_train = rf.predict(x_train)
#print(y_pred_train)

#精度比較
from sklearn.metrics import mean_absolute_error
mae=mean_absolute_error(y_test,y_pred)
def mean_absolute_percentage_error(y_test, y_pred):
    y_test, result = np.array(y_test), np.array(y_pred)
    return np.mean(np.abs((y_test - y_pred) / y_test)) * 100
mape = np.mean(np.abs((y_test - y_pred) / y_test)) * 100
print('MAPE:',mape)
print('MAE:',mae)

問題があれば回答をよろしくお願いします

行動規範の内容に同意します

回答1件

ベストアンサー

x_test,y_test = x[N_train:N_train+i*24+24],y[N_train:N_train+i*24+24]
のところを
x_test,y_test = x[N_train+i*24:N_train+i*24+24],y[N_train+i*24:N_train+i*24+24]
と変更してみてください。

元のコードだと、訓練データとテストデータが重なっています。

投稿2020/10/12 12:51

編集2020/10/12 12:52