[python]ランダムフォレストで時系列分析がしたいです

時系列分析（ランダムフォレスト）で将来の来店人数を予測したいです。

手元のデータ集計期間が短いため、任意日を用いて前日、前々日の来店人数を予測したものを学習データ、実際の来店人数をテストデータとして予測を行うことを考えています。

頂いたヒントを元にコーディングを行っているのですが、syntax error:X_val is not difinedとなります。原因が分からず前に進みません。

解決法、このコーディング自体の間違いをご指摘頂けないでしょうか。
よろしくお願いいたします。

dataset['date_year'] = dataset['ds'].apply(dataset_str2year)
dataset['date_month'] = dataset['ds'].apply(dataset_str2month)
dataset.iloc[0:9][['date_year', 'date_month']

target_col = 'y'
exclude_cols = ['y','ds','date_year']
feature_cols = []

for col in dataset.columns:
if col not in exclude_cols:
feature_cols.append(col)
feature_cols

y = dataset[target_col]
X = dataset[feature_cols]

# 学習データを70%(X_train[X_vars]_val, y_train[Y_vars]_val)、
テストデータを30%(X_test, y_test)に分割
X_train[X_vars]_val, X_test, y_train[Y_vars]_val, y_test = \
　   train_test_split(X, y, test_size=0.3, random_state=1234)

# さらに分割した学習データを70%(X_train, y_train)と30%(X_val, y_val)に分割
X_train, X_val, y_train, y_val = \
     train_test_split(X_train[X_vars], y_train[Y_vars], test_size=0.3, random_state=1234)

# ランダムフォレスト
rf = RandomForestRegressor()
rf.fit(X_train[X_vars], y_train[Y_vars])

for fday in pred["date"]:
    idx = pred[pred["date"] == fday].index[0]
    pred_value = rf.predict(pred.loc[pred["date"]==fday, X_vars].values.reshape(1,-1))

    for i in range(len(Y_vars)):
        prefix = re.match(r'(Date_\w+)_[0-9]+', Y_vars[i])
        target_list = prefix[1]
        
        #Date_0
            pred.loc[pred["date"]==fday, Y_vars[i]] = 0
        
        # Date_-1
        prefix = re.match(r'(Date_\w+)_[0-9]+', Y_vars[i])
        target_var1 = target_list + "_1"
        pred.loc[pred["date"]==fday+datetime.timedelta(days=1), target_var1] = pred_value[0][i]
        
        # Date_-2
        target_var2 = target_list + "_2"
        pred.loc[pred["date"]==fday+datetime.timedelta(days=1), target_var2] = pred.loc[pred["date"]==fday, target_var1].values[0]

y_train = rf.predict(X_val)
rf_mse = mean_squared_error(Y_val, y_train)
print('Random Forest RMSE: ', np.sqrt(rf_mse))

---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
<ipython-input-53-76f91fadb21b> in <module>
      1 rf = RandomForestRegressor(random_state=1234)
----> 2 rf.fit(X_train[X_vars], y_train[Y_vars])
      3 
      4 for fday in pred["ds"]:
      5     idx = pred[pred["ds"] == fday].index[0]

NameError: name 'X_vars' is not defined

meg_

2020/06/20 10:29

エラーメッセージは全文掲載しましょう。（ユーザー名等は隠してもらって構いません）

meg_

2020/06/20 12:21

エラーメッセージには「rf.fit(X_train[X_vars], y_train[Y_vars])」とありますが、質問のコードでは「rf.fit(X=train[X_vars], y=train[Y_vars])」となっています。このエラーメッセージは本当に質問のコードを実行した結果ですか？

Penpen7

2020/06/20 12:35

質問者様ご自身で修正されているところもあると思いますので、一度、ソースコードを貼り直していただいたほうがいいと思います。

mango55

2020/06/20 12:43

失礼しました。再度確認しましたらコードの方が誤っておりました。こちらで実行した結果のエラーとなります。

meg_

2020/06/20 23:19

コードを確認しました。しかし変数「X_vars」はrf.fit(X_train[X_vars], y_train[Y_vars])の前のコード中でも使用されています。（X_train, X_val, y_train, y_val = train_test_split(X_train[X_vars], y_train[Y_vars], test_size=0.3, random_state=1234)）そこではエラーは出ていないのですよね？であればrf.fit(X_train[X_vars], y_train[Y_vars])でもエラーにはならないはずですが。

mango55

2020/06/22 14:06

やはり同様の現象になっています。別の方法等を試してみたいと思います。ありがとうございました。

行動規範の内容に同意します

回答1件

ベストアンサー

このコードは一部分を抜粋されたものだと思いますが、この部分だけですとX_valがちゃんと定義されているかわからないため、具体的には回答できません。
syntax error:X_val is not difinedというのは、X_valに値を代入する前に使用しているために出ているエラーです。X_valを代入してから使用しているか、あるいはタイピングを間違っていないか確認してください。

投稿2020/06/20 06:03

編集2020/06/20 07:22

Penpen7

総合スコア698

mango55

2020/06/20 06:57 編集

お返事ありがとうございます。失礼しました、上部のコードです。 dataset['date_year'] = dataset['ds'].apply(dataset_str2year) dataset['date_month'] = dataset['ds'].apply(dataset_str2month) dataset.iloc[0:9][['date_year', 'date_month'] target_col = 'y' exclude_cols = ['y','ds','date_year'] feature_cols = [] for col in dataset.columns: if col not in exclude_cols: feature_cols.append(col) feature_cols y = dataset[target_col] X = dataset[feature_cols] 直前の部分は説明変数と特徴量の指定し、XとYに代入しているのみでX_valを定義しているところはありません。よろしくお願いいたします。

Penpen7

2020/06/20 07:18 編集

改めて見ると、コード中に定義はありますね。私の見落としです。失礼しました。どの行にエラーが出ているか書いていただけると、助言できると思います。

Penpen7

2020/06/20 07:21

提示されたソースコードを見ても、X_valが書かれているのは二箇所のみで、syntax errorとなりそうな部分がないため不思議です。

mango55

2020/06/20 11:15

エラーを追記しました。エラーは一番最後に出ています。よろしくお願いします。

Penpen7

2020/06/20 12:15

ご返信ありがとうございます。追記されたエラーを見ますと、name 'X_vars' is not definedとあるので、X_valではなく、正しくはX_varsに関するエラーとなるでしょうか？

mango55

2020/06/20 13:48

こちらこそありがとうございます。はい、その認識でおります。

Penpen7

2020/06/22 17:25 編集

X_train[X_vars]_val, X_test, y_train[Y_vars]_val, y_test は、 X_train[X_vars], X_test, y_train[Y_vars], y_test の誤りではありませんか？ X_varsとY_varsを添字として使う前に、代入しないといけません。これらの変数はXとYにどのコラムを使うかというようなリストにあたるものでしょうか？

行動規範の内容に同意します