トップ 7に関する質問 Randomforestを用いた回帰分析の予測値と特徴重要度の可視化をしたい。

編集履歴

質問編集履歴

ソースコードについて追記しました。

2021/08/30 13:12

投稿

xtail

スコア2

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -60,10 +60,54 @@
 ### 該当のソースコード
 ```ここに言語名を入力
+"""ライブラリのインポート"""(追記)
+#データ解析用ライブラリ
+import pandas as pd
+import numpy as np
+#データ可視化ライブラリ
+import matplotlib.pyplot as plt
+import seaborn as sns
+#RandomForestライブラリ
+from sklearn.ensemble import RandomForestRegressor as RFR
+from sklearn.model_selection import GridSearchCV
+#訓練データとモデル評価用データに分けるライブラリ
+from sklearn.model_selection import train_test_split
+#-------------------------------------------------------------
 #データの読み込み
 concrete_data = pd.read_csv(r'C:データ',engine='python')
 print(concrete_data.head())#読み込みの確認
+#データを訓練用とモデル評価用に分割
+train_set, test_set = train_test_split(concrete_data, test_size=0.2, random_state=4)
+print(len(train_set))
+print(len(test_set))
+#データの変数　[A,B,C,D,E,F,G,H,I,J,K,L,M,ID]
+#訓練データを説明変数データ(X_train)と目的変数データ(y_train)に分割
+X_train = train_set.drop(['A','D','E','F','H','L','M','ID'], axis=1)
+y_train = train_set['M']
+#モデル評価用データを説明変数データ(X_train)と目的変数データ(y_train)に分割
+# All
+#X_test = test_set.drop(['A','H','L','M','ID'], axis=1)
+# Slim
+X_test = test_set.drop(['A','D','E','F','H','L','M','ID'], axis=1)
+# non-cyc
+#X_test = test_set.drop(['A','H','J','K','L','M','ID'], axis=1)
+y_test = test_set['M']
+#分割データの確認
+print(X_train.head())
 #モデル構築 　RandomForest
 rf = RFR(n_estimators=100, #フォレスト内のツリーの数、デフォルト=100
@@ -81,7 +125,13 @@
          verbose=True, #詳細
          warm_start=False) #前の呼び出しの解を再利用、デフォルト=False
+#モデルフィット
+rf_train = rf.fit(X_train,y_train)
+rf_eval = rf.fit(X_test, y_test)
+params = {'metric': 'rmse',
+          'max_depth' : 9}
 #予測値算出
 y_pred = rf.predict(X_test)

7 125 514 517 1326

特徴重要度の可視化についての情報を追記しました。

2021/08/30 13:12

投稿

xtail

スコア2

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -110,4 +110,8 @@
 ### 補足情報
 Spyder(Python3.8)を使っています。
 データの分割などは省略しています。
-一応、①についてはできているとは思うのですが、モデル自体正しいのか不安です。
+一応、①についてはできているとは思うのですが、モデル自体正しいのか不安です。
+![![イメージ説明](a9fb8f782dda10ad67c137d03b18e0de.png)
+これが現在出ているグラフです。
+![イメージ説明](e45144518168bdf7c3b060b6d3f97f47.png)
+理想的にはこのようにy軸に説明変数を出したいです。

7 125 514 517 1326

予測値についての情報を追記しました。

2021/08/30 12:14

投稿

xtail

スコア2

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -11,7 +11,10 @@
 ①についてはできたのですが②と③についてはできていないのでお力を貸してください。
 初心者で勉強不足ですが宜しくお願いします。
+追記
+②についても解決したかもしれません。
 ### 発生している問題・エラーメッセージ
 ```

7 125 514 517 1326

予測値についての情報を追記しました。

2021/08/30 12:06

投稿

xtail

スコア2

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -19,6 +19,19 @@
 [ 0.38222 -1.58526  0.34684 ...  2.14196  1.05836  1.01766]
 と出るのでできれば一つの予測値にしたいです。
+追記
+#予測値算出
+y_pred = rf.predict(X_test)
+#予測値の平均値
+y_pred_true = sum(y_pred)/len(y_pred)
+print(y_pred)
+print(y_pred_true)
+に変更しました。
+>[ 0.38222 -1.58526  0.34684 ...  2.14196  1.05836  1.01766]
+>0.007574019218924746
+-------------------------------------------------------------
 特徴重要度の可視化について
 KeyError: 'feature_names'
 と出て、できていない状況です。
@@ -89,6 +102,8 @@
 データ読み込みの際にnamesで列名をつけることができると拝見したので、feature_namesを定義して、concrete_data = pd.read_csv(r'C:データ',engine='python',names=feature_names)で読み込んでみましたがだめでした。
 そもそもfeature importanceのコードはほぼコピペなので適してるかもわかりません。
+②予測値の可視化について、y_predの平均値を取ることで解決したかもしれません。追記します。
 ### 補足情報
 Spyder(Python3.8)を使っています。
 データの分割などは省略しています。

7 125 514 517 1326

エラーメッセージの全文を追加しました。

2021/08/30 12:04

投稿

xtail

スコア2

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -25,6 +25,16 @@
 追記
+  The above exception was the direct cause of the following exception:
+Traceback (most recent call last):
+  File "Cモデル名", line 150, in <module>
+    plt.xticks(x, concrete_data['feature_names'])
+  File "C:\Users\Owner\anaconda3\lib\site-packages\pandas\core\frame.py", line 3455, in __getitem__
+    indexer = self.columns.get_loc(key)
   File "C:\Users\Owner\anaconda3\lib\site-packages\pandas\core\indexes\base.py", line 3363, in get_loc
     raise KeyError(key) from err

7 125 514 517 1326

エラーメッセージの全文を追加しました。

2021/08/30 11:53

投稿

xtail

スコア2

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -22,6 +22,13 @@
 特徴重要度の可視化について
 KeyError: 'feature_names'
 と出て、できていない状況です。
+追記
+  File "C:\Users\Owner\anaconda3\lib\site-packages\pandas\core\indexes\base.py", line 3363, in get_loc
+    raise KeyError(key) from err
+KeyError: 'feature_names'
 ```
 ### 該当のソースコード

7 125 514 517 1326