ランダムフォレストで、テストデータの予測時に、エラーが発生して苦慮しています。
# -*- coding: utf-8 -*- import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.model_selection import LeaveOneOut from sklearn.ensemble import RandomForestClassifier import scipy as sp import sklearn import seaborn as sns from matplotlib import pyplot as plt import sklearn.cross_validation #############magichan改訂版 #訓練データ gakusyuu_data = pd.read_csv("area_tr_1.csv" , sep=",") # 特徴データとラベルデータを取り出す gakusyuu_data_except_arrival = gakusyuu_data.drop("arrival", axis=1) features = gakusyuu_data_except_arrival.as_matrix() targets = gakusyuu_data['arrival'].as_matrix() #############予測 #モデルを作ります model = RandomForestClassifier( n_estimators=10, criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, max_features='auto', max_leaf_nodes=None, bootstrap=True, oob_score=False, n_jobs=1, random_state=None, verbose=0, model.fit(features, targets) # テストデータ読み込み test_df = pd.read_csv("area_test_1.csv", sep=",") # テストデータ作成 test_data = test_df[['area_1','area_2','area_3','area_4','area_5','area_6','area_7','area_8','area_9','area_10','area_11','area_12','area_13']].as_matrix() # 予測 arrival = model.predict(test_data) print(arrival) # 結果をテストデータに反映 test_df['arrival'] = arrival print(test_df)
訓練データの内容は下記の通りです
area_1 area_2 area_3 area_4 area_5 area_6 area_7 area_8 area_9 area_10 area_11 area_12 area_13 arrival 9 6 1 10 5 16 14 57 2 1800 1 466 0 0 9 6 2 1 6 16 2 54 2 1400 1 472 0 0 9 6 1 2 6 16 14 56 2 1200 1 502 4 1 9 6 1 6 6 16 10 56 2 1800 2 452 0 0 9 6 1 1 6 16 11 54 2 1200 2 468 -4 0 8 5 1 10 4 16 4 56 1 1400 1 486 6 0 8 5 1 5 5 16 6 56 2 1200 1 520 -2 0 8 5 1 7 5 15 7 55 2 1400 1 462 -8 0 8 5 1 4 6 18 18 56 1 1600 1 490 10 0 8 5 1 12 5 13 9 57 2 1800 1 466 -2 1 8 5 1 6 5 16 1 56 2 1800 1 512 -6 0 8 5 1 5 5 16 6 56 1 1200 1 486 0 0 8 5 1 2 6 16 14 56 2 1800 1 498 -2 0 4 5 1 12 5 16 9 57 1 1200 1 488 0 0 4 5 1 7 5 15 10 55 2 1200 2 472 -2 0 8 5 1 11 4 18 5 56 1 1200 1 480 -6 0 8 5 1 2 6 11 3 56 2 1800 1 500 4 0 8 5 2 12 5 15 7 57 2 1800 1 468 0 0 8 5 2 3 6 13 7 56 2 1900 1 452 -4 0 4 4 1 3 6 15 5 56 2 1800 1 520 -4 0 4 4 1 1 6 11 2 54 2 1800 1 472 -12 0
テストデータの内容は下記の通りです
area_1 area_2 area_3 area_4 area_5 area_6 area_7 area_8 area_9 area_10 area_11 area_12 area_13 7 7 4 11 4 18 14 56 1 1200 1 484 -2
上記のソースコードを動かしますと
SyntaxError invalid syntax というエラーが発生します。
構文が間違っているとのエラーなのですが、
私としては構文が間違っていないと考えています。
何か、単純な間違いをしているのでしょうか?
先輩方の ご助言、よろしくお願いいたします。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2017/10/31 23:28