質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.46%
CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

最適化

最適化とはメソッドやデザインの最適な処理方法を選択することです。パフォーマンスの向上を目指す為に行われます。プログラミングにおける最適化は、アルゴリズムのスピードアップや、要求されるリソースを減らすことなどを指します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

1回答

1023閲覧

Randomforestを用いた回帰分析の予測値と特徴重要度の可視化をしたい。

xtail

総合スコア2

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

最適化

最適化とはメソッドやデザインの最適な処理方法を選択することです。パフォーマンスの向上を目指す為に行われます。プログラミングにおける最適化は、アルゴリズムのスピードアップや、要求されるリソースを減らすことなどを指します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2021/08/30 05:31

編集2021/08/30 13:12

前提・実現したいこと

私は機械学習初心者です。主にネットからコピペしたりして
RandomForestRegressorで回帰分析のモデルを作ろうとしています。
やりたいこととして
①予測値と正解値の正答率の算出
②予測値の可視化
③特徴重要度の可視化
をしたいと考えています。

①についてはできたのですが②と③についてはできていないのでお力を貸してください。
初心者で勉強不足ですが宜しくお願いします。

追記
②についても解決したかもしれません。

発生している問題・エラーメッセージ

予測値は [ 0.38222 -1.58526 0.34684 ... 2.14196 1.05836 1.01766] と出るのでできれば一つの予測値にしたいです。 追記 #予測値算出 y_pred = rf.predict(X_test) #予測値の平均値 y_pred_true = sum(y_pred)/len(y_pred) print(y_pred) print(y_pred_true) に変更しました。 >[ 0.38222 -1.58526 0.34684 ... 2.14196 1.05836 1.01766] >0.007574019218924746 ------------------------------------------------------------- 特徴重要度の可視化について KeyError: 'feature_names' と出て、できていない状況です。 追記 The above exception was the direct cause of the following exception: Traceback (most recent call last): File "Cモデル名", line 150, in <module> plt.xticks(x, concrete_data['feature_names']) File "C:\Users\Owner\anaconda3\lib\site-packages\pandas\core\frame.py", line 3455, in __getitem__ indexer = self.columns.get_loc(key) File "C:\Users\Owner\anaconda3\lib\site-packages\pandas\core\indexes\base.py", line 3363, in get_loc raise KeyError(key) from err KeyError: 'feature_names'

該当のソースコード

"""ライブラリのインポート"""(追記) #データ解析用ライブラリ import pandas as pd import numpy as np #データ可視化ライブラリ import matplotlib.pyplot as plt import seaborn as sns #RandomForestライブラリ from sklearn.ensemble import RandomForestRegressor as RFR from sklearn.model_selection import GridSearchCV #訓練データとモデル評価用データに分けるライブラリ from sklearn.model_selection import train_test_split #------------------------------------------------------------- #データの読み込み concrete_data = pd.read_csv(r'C:データ',engine='python') print(concrete_data.head())#読み込みの確認 #データを訓練用とモデル評価用に分割 train_set, test_set = train_test_split(concrete_data, test_size=0.2, random_state=4) print(len(train_set)) print(len(test_set)) #データの変数 [A,B,C,D,E,F,G,H,I,J,K,L,M,ID]   #訓練データを説明変数データ(X_train)と目的変数データ(y_train)に分割 X_train = train_set.drop(['A','D','E','F','H','L','M','ID'], axis=1) y_train = train_set['M'] #モデル評価用データを説明変数データ(X_train)と目的変数データ(y_train)に分割 # All #X_test = test_set.drop(['A','H','L','M','ID'], axis=1) # Slim X_test = test_set.drop(['A','D','E','F','H','L','M','ID'], axis=1) # non-cyc #X_test = test_set.drop(['A','H','J','K','L','M','ID'], axis=1) y_test = test_set['M'] #分割データの確認 print(X_train.head()) #モデル構築  RandomForest rf = RFR(n_estimators=100, #フォレスト内のツリーの数、デフォルト=100 max_depth=None, #最大深さ無し random_state=2525, #ランダム性、デフォルト=なし bootstrap=True, #ブートストラップ使用 max_leaf_nodes=None, #リーフ、、ノードの数に制限なし min_impurity_decrease=0.0, #ノードの分割、デフォルト=0.0 min_impurity_split=None, #ツリーの成長の早期停止のしきい値 min_samples_leaf=1, #リーフ ノードに必要な最小サンプル数、デフォルト=1 min_samples_split=2, #内部ノードを分割するために必要なサンプルの最小数、デフォルト=2 min_weight_fraction_leaf=0.0, #リーフ ノードに必要なウェイトの合計、デフォルト=0.0 n_jobs=-1, #並列実行するジョブの数 oob_score=False, #袋の外の見積もりを使用して取得したトレーニング データセットのスコア verbose=True, #詳細 warm_start=False) #前の呼び出しの解を再利用、デフォルト=False #モデルフィット rf_train = rf.fit(X_train,y_train) rf_eval = rf.fit(X_test, y_test) params = {'metric': 'rmse', 'max_depth' : 9} #予測値算出 y_pred = rf.predict(X_test) print(y_pred) # feature_importanceを求める feature_importances = rf.feature_importances_ print(feature_importances) plt.figure(figsize=(8, 8)) plt.ylim([0, 1.0]) y = feature_importances x = np.arange(len(y)) plt.bar(x, y, align="center") plt.xticks(x, concrete_data['feature_names']) plt.show()

試したこと

データ読み込みの際にnamesで列名をつけることができると拝見したので、feature_namesを定義して、concrete_data = pd.read_csv(r'C:データ',engine='python',names=feature_names)で読み込んでみましたがだめでした。
そもそもfeature importanceのコードはほぼコピペなので適してるかもわかりません。

②予測値の可視化について、y_predの平均値を取ることで解決したかもしれません。追記します。

補足情報

Spyder(Python3.8)を使っています。
データの分割などは省略しています。
一応、①についてはできているとは思うのですが、モデル自体正しいのか不安です。
![イメージ説明
これが現在出ているグラフです。
イメージ説明
理想的にはこのようにy軸に説明変数を出したいです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

meg_

2021/08/30 07:17 編集

> と出るのでできれば一つの予測値にしたいです。 入力値が複数だからではないですか? > 特徴重要度の可視化についKeyError: 'feature_names'と出て、できていない状況です。 エラーメッセージは全文掲載してください。
xtail

2021/08/30 11:11

>入力値が複数だからではないですか? 勉強不足ですみません。入力値というのは説明変数と同意ですか? 説明変数が複数だと、目的変数の予測値が複数出てしまうという解釈で宜しいのでしょうか。 >エラーメッセージは全文掲載してください。 ご指摘ありがとうございます。追記したもので宜しいでしょうか。
meg_

2021/08/30 11:19

>>入力値が複数だからではないですか? >勉強不足ですみません。入力値というのは説明変数と同意ですか? 質問のコード「y_pred = rf.predict(X_test)」のX_testを指しています。
meg_

2021/08/30 11:22

エラーメッセージはまだ全部ではないですよね? 質問者さんが書いたコードのどこでエラーが発生したかのメッセージ部分から載せてもらえませんか?
xtail

2021/08/30 11:57

>質問のコード「y_pred = rf.predict(X_test)」のX_testを指しています。 理解できました。ありがとうございます。 >エラーメッセージはまだ全部ではないですよね? 質問者さんが書いたコードのどこでエラーが発生したかのメッセージ部分から載せてもらえませんか? 更に追記しました。まだ不足でしょうか。
meg_

2021/08/30 12:05

KeyErrorはconcrete_dataに'feature_names'という列名がないので発生しているエラーですね。 plt.xticks(x, concrete_data['feature_names'])のコードではX軸ラベルに何を表示させたかったのでしょうか?
meg_

2021/08/30 12:12

plt.xticks(x, rf.feature_names) でどうでしょうか?
xtail

2021/08/30 12:15

特徴重要度可視化について追記しました。 >plt.xticks(x, rf.feature_names) でどうでしょうか? 試してみます。
xtail

2021/08/30 12:19

試して見たところ、 File "C:モデル, line 150, in <module> plt.xticks(x, rf.feature_names) AttributeError: 'RandomForestRegressor' object has no attribute 'feature_names' のエラーメッセージが表示されました。
meg_

2021/08/30 12:28

すみません。間違えました。 plt.xticks(x, concrete_data.columns)ではどうでしょうか?
xtail

2021/08/30 12:43

>plt.xticks(x, concrete_data.columns)ではどうでしょうか? File "C:\Users\Owner\anaconda3\lib\site-packages\matplotlib\axis.py", line 1711, in set_ticklabels raise ValueError( ValueError: The number of FixedLocator locations (6), usually from a call to set_ticks, does not match the number of ticklabels (14). 次はこのエラーメッセージが出ました。何度もお手数をおかけしてすみません。
meg_

2021/08/30 12:56

fitの部分のコードがないので分かりませんが、訓練データはconcrete_dataではないのですか?
meg_

2021/08/30 12:58

今更の確認ですが使用しているライブラリはScikit-learnのRandomForestRegressorですか?
xtail

2021/08/30 13:16

ソースコードについて追記しました。 >訓練データはconcrete_dataではないのですか? ソースコードが不十分でした。train_setになるかと思います。 >ライブラリはScikit-learnのRandomForestRegressorですか? そうだと思います。
meg_

2021/08/30 13:22

> ソースコードが不十分でした。train_setになるかと思います。 モデルのfitに使用したデータセットの特徴量名をグラフラベルに使用すれば良いでしょう。
xtail

2021/08/30 13:49

>モデルのfitに使用したデータセットの特徴量名をグラフラベルに使用すれば良いでしょう。 具体的にはどこを変えればいいのでしょうか。勉強不足ですみません。
meg_

2021/08/30 14:21

検証できないためおそらくですが、plt.xticks(x, X_train.columns) で良いかと思います。
xtail

2021/09/01 01:06

なんとかラベルに特徴量名を使うことができました。
guest

回答1

0

pycaretで検索して頂けると容易に解決することが出来るかと思います。

投稿2021/12/12 07:05

mossan555

総合スコア8

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.46%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問