質問編集履歴

参考資料追加

2021/10/11 07:44

投稿

2017yamaguchi

スコア14

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -272,8 +272,12 @@
 使用ライブラリ
-sklearn
-matplotlib
+sklearn, matplotlib, pandas
-pandas
+参考
+ロジスティック回帰分析で特徴量の重要度を知る方法
+(https://teratail.com/questions/263204)

使用ライブラリ追加

2021/10/11 07:44

投稿

2017yamaguchi

スコア14

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -275,3 +275,5 @@
 sklearn
 matplotlib
+pandas

誤字修正

2021/10/11 06:15

投稿

2017yamaguchi

スコア14

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -12,260 +12,254 @@
-### 発生している問題・エラーメッセージ
+### 発生している問題
+グラフが赤の時故障、青の時正常と凡例に追加したいが、うまくいっていない
+### 該当のソースコード
+```python3
+print("*** LogisticRegression.pyの実行 ***")
+print("Step1. ライブラリのインポート")
+# ***** ライブラリのインポート *****
+import warnings
+# 余分なワーニングを非表示にする
+warnings.filterwarnings('ignore')
+import pickle
+import os
+import japanize_matplotlib
+import matplotlib.pyplot as plt
+from sklearn.linear_model import LogisticRegression
+from sklearn.preprocessing import StandardScaler
+from sklearn.metrics import roc_auc_score
+from sklearn.model_selection import train_test_split
+import csv
+import pandas as pd
+# ***** 入力ファイルの読み込み *****
+print("Step2. 入力ファイルの読み込み")
+INPUT_FILE = os.path.join(os.getcwd(), "input_file")
+OUTPUT_FILE = os.path.join(os.getcwd(), "output_file")
+os.makedirs(OUTPUT_FILE, exist_ok=True)
+THRESH = 0.3  # 故障確率をいくつ以上を故障と判定するか指定
+df = pd.read_csv(os.path.join(INPUT_FILE, 'train.csv'))
+df.head() #図1
+print("Step3. 入力データ前処理")
+# 製品故障
+df['状態(予測対象)'] = df['状態(予測対象)'].map({'故障': 0, '正常': 1})
+# 購入の経過月数 131.0month -> 131.0
+df['購入からの経過月数'] = df['購入からの経過月数'].str.replace('month', '').astype(float)
+# 機器タイプ
+m_type = pd.get_dummies(df['機器タイプ'], drop_first=True, prefix='機器')
+# 保守担当チーム
+team=pd.get_dummies(df['保守担当チーム'],drop_first=True,prefix='チーム')
+# 表の統合
+df_tmp=df.drop(['機器タイプ','保守担当チーム'],axis=1)
+df_merge=pd.concat([df_tmp,m_type,team],axis=1)
+df_merge.head() #図2
+col = ['機器_B','機器_C','チーム_Team1-2','チーム_Team2-1','チーム_Team2-2','購入からの経過月数', '稼働時平均温度',
+       '稼働時平均湿度', '油圧メーター値']
+x = df_merge[col]
+t = df_merge['状態(予測対象)']
+#訓練データ標準化
+sc=StandardScaler()
+new=sc.fit_transform(x)
+# ***** 学習 *****
+print("Step4. モデル学習")
+x_train, x_test, y_train, y_test = train_test_split(new, t,
+                                                    test_size=0.2, random_state=0)
+#学習
+model = LogisticRegression(random_state=0, C=0.1,
+                           multi_class="auto", solver="lbfgs")
+model.fit(x_train, y_train)
+print(f'訓練データ件数{len(y_train)} 検証データ件数{len(y_test)}')
+# ***** 精度評価 *****
+print("Step5. 精度評価")
+#正解率
+score = model.score(x_train, y_train)
+score2 = model.score(x_test, y_test)
+print(f"Train {score:.2%}")
+print(f"Test {score2:.2%}")
+#影響度を知る
+feature=pd.DataFrame(model.coef_[0],col)
+feature.to_csv(os.path.join(OUTPUT_FILE,"feature.csv"),header=False,index=True,encoding="shift-jis")
+#影響度をグラフ化する
+plt.figure(figsize=(15,5))
+plt.title("故障の影響度")
+plt.xlabel("要因")
+plt.ylabel('故障/正常の影響度')
+#影響度が正の時青,影響度が負の時赤にする
+color=[('r' if model.coef_[0][i]<0 else 'b') for i in range(len(model.coef_[0]))]
+#影響度を絶対値にして表示
+plt.bar(col,np.abs(model.coef_[0]),width=0.5,color=color)　図3
+'''
+影響度が正の時正常、負の時故障と凡例に表示させたい
+'''
+#plt.legend(loc='upper center')
+plt.show()
 ```
+![図1](aa3514f265d59b1fa2a00190c425c883.png)
-エラーメッセージ
+図1 入力ファイル
+![図2](b22a86acdae8de3775c0a46ddc3366d5.png)
+図2 カテゴリ変数をダミー変数化した
+![イメージ説明](15d4236c905184b9624a5c360cebbe0d.png)
+図3 影響度をグラフ出力したもの
+ここから凡例を追加したい
+### 試したこと
+以下のコードで場合分けしてみたが、凡例が期待通りの動作にならなかった。
+図4では、凡例が9個も出てしまっているが、凡例を赤と青の2つだけにしたい。
+```python3
+plt.figure(figsize=(15,5))
+for i in range(len(model.coef_[0])):
+    if model.coef_[0][i]<0:
+        plt.bar(col[i],model.coef_[0][i],width=0.5,color="r",label="故障")
+    else:
+        plt.bar(col[i],model.coef_[0][i],width=0.5,color="b",label="正常")
+plt.legend(loc='upper left')
+plt.show() #図4
 ```
-### 該当のソースコード
-```python3
-print("*** LogisticRegression.pyの実行 ***")
-print("Step1. ライブラリのインポート")
-# ***** ライブラリのインポート *****
-import warnings
-# 余分なワーニングを非表示にする
-warnings.filterwarnings('ignore')
-import pickle
-import os
-import japanize_matplotlib
-import matplotlib.pyplot as plt
-from sklearn.linear_model import LogisticRegression
-from sklearn.preprocessing import StandardScaler
-from sklearn.metrics import roc_auc_score
-from sklearn.model_selection import train_test_split
-import csv
-import pandas as pd
-# ***** 入力ファイルの読み込み *****
-print("Step2. 入力ファイルの読み込み")
-INPUT_FILE = os.path.join(os.getcwd(), "input_file")
-OUTPUT_FILE = os.path.join(os.getcwd(), "output_file")
-os.makedirs(OUTPUT_FILE, exist_ok=True)
-THRESH = 0.3  # 故障確率をいくつ以上を故障と判定するか指定
-df = pd.read_csv(os.path.join(INPUT_FILE, 'train.csv'))
-df.head() #図1
-print("Step3. 入力データ前処理")
-# 製品故障
-df['状態(予測対象)'] = df['状態(予測対象)'].map({'故障': 0, '正常': 1})
-# 購入の経過月数 131.0month -> 131.0
-df['購入からの経過月数'] = df['購入からの経過月数'].str.replace('month', '').astype(float)
-# 機器タイプ
-m_type = pd.get_dummies(df['機器タイプ'], drop_first=True, prefix='機器')
-# 保守担当チーム
-team=pd.get_dummies(df['保守担当チーム'],drop_first=True,prefix='チーム')
-# 表の統合
-df_tmp=df.drop(['機器タイプ','保守担当チーム'],axis=1)
-df_merge=pd.concat([df_tmp,m_type,team],axis=1)
-df_merge.head() #図2
-col = ['機器_B','機器_C','チーム_Team1-2','チーム_Team2-1','チーム_Team2-2','購入からの経過月数', '稼働時平均温度',
-       '稼働時平均湿度', '油圧メーター値']
-x = df_merge[col]
-t = df_merge['状態(予測対象)']
-#訓練データ標準化
-sc=StandardScaler()
-new=sc.fit_transform(x)
-# ***** 学習 *****
-print("Step4. モデル学習")
-x_train, x_test, y_train, y_test = train_test_split(new, t,
-                                                    test_size=0.2, random_state=0)
-#学習
-model = LogisticRegression(random_state=0, C=0.1,
-                           multi_class="auto", solver="lbfgs")
-model.fit(x_train, y_train)
-print(f'訓練データ件数{len(y_train)} 検証データ件数{len(y_test)}')
-# ***** 精度評価 *****
-print("Step5. 精度評価")
-#正解率
-score = model.score(x_train, y_train)
-score2 = model.score(x_test, y_test)
-print(f"Train {score:.2%}")
-print(f"Test {score2:.2%}")
-#影響度を知る
-feature=pd.DataFrame(model.coef_[0],col)
-feature.to_csv(os.path.join(OUTPUT_FILE,"feature.csv"),header=False,index=True,encoding="shift-jis")
-#影響度をグラフ化する
-plt.figure(figsize=(15,5))
-plt.title("故障の影響度")
-plt.xlabel("要因")
-plt.ylabel('故障/正常の影響度')
-#影響度が正の時青,影響度が負の時赤にする
-color=[('r' if model.coef_[0][i]<0 else 'b') for i in range(len(model.coef_[0]))]
-#影響度を絶対値にして表示
-plt.bar(col,np.abs(model.coef_[0]),width=0.5,color=color)　図3
-'''
-影響度が正の時正常、負の時故障と凡例に表示させたい
-'''
-#plt.legend(loc='upper center')
-plt.show()
-```
-![図1](aa3514f265d59b1fa2a00190c425c883.png)
-図1 入力ファイル
-![図2](b22a86acdae8de3775c0a46ddc3366d5.png)
-図2 カテゴリ変数をダミー変数化した
-![イメージ説明](15d4236c905184b9624a5c360cebbe0d.png)
-図3 影響度をグラフ出力したもの
-ここから凡例を追加したい
-### 試したこと
-以下のコードで場合分けしてみたが、凡例が期待通りの動作にならなかった。
-図4では、凡例が9個も出てしまっているが、凡例を赤と青の2つだけにしたい。
-```python3
-plt.figure(figsize=(15,5))
-for i in range(len(model.coef_[0])):
-    if model.coef_[0][i]<0:
-        plt.bar(col[i],model.coef_[0][i],width=0.5,color="r",label="故障")
-    else:
-        plt.bar(col[i],model.coef_[0][i],width=0.5,color="b",label="正常")
-plt.legend(loc='upper left')
-plt.show() #図4
-```
 ![イメージ説明](5ed797c011effa9eb970a8f5bb1f0f5b.png)
 図4 凡例失敗図