質問編集履歴

コードの修正を行いました。

2020/11/23 02:32

投稿

python01

スコア20

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -3,8 +3,6 @@
 製造現場において、生産時のプロセス情報（生産設備の使用号機、生産中に製品が停止した時間）を基に
 不良品が発生するかどうかの2値分類モデルを作りたいです。
-Pythonを使用しています。
 ### 発生している問題・エラーメッセージ
 不良品が発生する確率は100個中2～3個程度です。
@@ -32,6 +30,7 @@
 ```
 ### 該当のソースコード
+```python
 import pandas as pd
 test_file = "data.csv"
 test_file2 = "test_N.csv"
@@ -39,7 +38,7 @@
 df_make = pd.read_csv(test_file,engine="python")
 df_make.describe()
-■標準化■
+#■標準化■
 from sklearn.preprocessing import StandardScaler
 stdsc = StandardScaler()
 df_make[['ラインの停止区間A',ラインの停止区間B']] = stdsc.fit_transform(df_make[['ラインの停止区間A','ラインの停止区間B']])
@@ -49,34 +48,33 @@
 df_make = pd.get_dummies(df_make, columns=["使用装置"])
 df_x = df_make.drop(["不良"], axis=1)
-■機械学習■
+#■機械学習■
 from sklearn.model_selection import train_test_split
 train_x, test_x, train_y, test_y = train_test_split(df_x, df_y,stratify = df_y, test_size = 0.9, random_state=0)
-//ここで不良あり/なしの個数を確認
+#ここで不良あり/なしの個数を確認
 train_y.value_counts()
-■アルゴリズム選択■
+#■アルゴリズム選択■
-ロジスティック回帰 （このコードではこのアルゴリズムを使用）
+#ロジスティック回帰 （このコードではこのアルゴリズムを使用）
 from sklearn.linear_model import LogisticRegression
 model = LogisticRegression(C=10)
-ランダムフォレスト
+#ランダムフォレスト
 from sklearn.ensemble import RandomForestClassifier
 model = RandomForestClassifier(random_state=random_seed)
 model = RandomForestClassifier(3)
- 決定木
+#決定木
 from sklearn.tree import DecisionTreeClassifier
 model = DecisionTreeClassifier(max_depth = 2)
-XGBoost
+#XGBoost
 from xgboost import XGBClassifier
 model = XGBClassifier(3)
-ニューラルネットワーク
+#ニューラルネットワーク
 from sklearn.neural_network import MLPClassifier
 model = MLPClassifier(hidden_layer_sizes=(200,200), random_state=random_seed)
@@ -93,7 +91,7 @@
 plt.plot(np.array(train_y), color="black", linestyle="dotted",linewidth="0.2") #答え　＝　黒
-■学習データで精度確認■
+#■学習データで精度確認■
 from sklearn.metrics import precision_recall_fscore_support
 precision, recall, fscore, _ = precision_recall_fscore_support(train_y, pred, average='binary')
@@ -109,7 +107,7 @@
 plt.plot(pred2, color="red") #予測線
 plt.plot(np.array(test_y), color="black", linestyle="dotted",linewidth="0.2") #答え
-■テストデータで精度確認■
+#■テストデータで精度確認■
 precision, recall, fscore, _ = precision_recall_fscore_support(test_y, pred2, average='binary')
 score = model.score(test_x, test_y) #決定係数を確認する。1に近いほど精度が良い。
@@ -119,7 +117,7 @@
 print(f'F値:   {fscore:.4f}')
-■他のデータ（1万個のデータ）の予測■
+#■他のデータ（1万個のデータ）の予測■
 df_make2 = pd.read_csv(test_file2,engine="python")
 df_make2[['ラインの停止区間A',ラインの停止区間B']] = stdsc.fit_transform(df_make[['ラインの停止区間A','ラインの停止区間B']])
@@ -140,9 +138,10 @@
 print(f'精度: {score:.4f}')
 print(f'適合率: {precision:.4f}')
 print(f'再現率: {recall:.4f}')
-print(f'F値:   {fscore:.4f}')  ←ここでF値が10％ほどしか出ない
+print(f'F値:   {fscore:.4f}')  #←ここでF値が10％ほどしか出ない
+```
 ### 試したこと

参考でコードを入力しました。

2020/11/23 02:32

投稿

python01

スコア20

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -32,11 +32,118 @@
 ```
 ### 該当のソースコード
+import pandas as pd
+test_file = "data.csv"
+test_file2 = "test_N.csv"
+df_make = pd.read_csv(test_file,engine="python")
-```ここに言語名を入力
+df_make.describe()
-ソースコード
-```
+■標準化■
+from sklearn.preprocessing import StandardScaler
+stdsc = StandardScaler()
+df_make[['ラインの停止区間A',ラインの停止区間B']] = stdsc.fit_transform(df_make[['ラインの停止区間A','ラインの停止区間B']])
+df_y = df_make["不良"]
+df_make = pd.get_dummies(df_make, columns=["製品の位置情報"])
+df_make = pd.get_dummies(df_make, columns=["使用装置"])
+df_x = df_make.drop(["不良"], axis=1)
+■機械学習■
+from sklearn.model_selection import train_test_split
+train_x, test_x, train_y, test_y = train_test_split(df_x, df_y,stratify = df_y, test_size = 0.9, random_state=0)
+//ここで不良あり/なしの個数を確認
+train_y.value_counts()
+■アルゴリズム選択■
+ロジスティック回帰 （このコードではこのアルゴリズムを使用）
+from sklearn.linear_model import LogisticRegression
+model = LogisticRegression(C=10)
+ランダムフォレスト
+from sklearn.ensemble import RandomForestClassifier
+model = RandomForestClassifier(random_state=random_seed)
+model = RandomForestClassifier(3)
+ 決定木
+from sklearn.tree import DecisionTreeClassifier
+model = DecisionTreeClassifier(max_depth = 2)
+XGBoost
+from xgboost import XGBClassifier
+model = XGBClassifier(3)
+ニューラルネットワーク
+from sklearn.neural_network import MLPClassifier
+model = MLPClassifier(hidden_layer_sizes=(200,200), random_state=random_seed)
+model.fit(train_x,train_y)
+pred = model.predict(train_x)
+import matplotlib.pyplot as plt
+%matplotlib inline
+import numpy as np
+plt.plot(pred, color="red") #AIの予想 = 赤
+plt.plot(np.array(train_y), color="black", linestyle="dotted",linewidth="0.2") #答え　＝　黒
+■学習データで精度確認■
+from sklearn.metrics import precision_recall_fscore_support
+precision, recall, fscore, _ = precision_recall_fscore_support(train_y, pred, average='binary')
+score = model.score(train_x, train_y)
+print(f'精度: {score:.4f}')
+print(f'適合率: {precision:.4f}')
+print(f'再現率: {recall:.4f}')
+print(f'F値:   {fscore:.4f}')
+pred2 = model.predict(test_x)
+plt.plot(pred2, color="red") #予測線
+plt.plot(np.array(test_y), color="black", linestyle="dotted",linewidth="0.2") #答え
+■テストデータで精度確認■
+precision, recall, fscore, _ = precision_recall_fscore_support(test_y, pred2, average='binary')
+score = model.score(test_x, test_y) #決定係数を確認する。1に近いほど精度が良い。
+print(f'精度: {score:.4f}')
+print(f'適合率: {precision:.4f}')
+print(f'再現率: {recall:.4f}')
+print(f'F値:   {fscore:.4f}')
+■他のデータ（1万個のデータ）の予測■
+df_make2 = pd.read_csv(test_file2,engine="python")
+df_make2[['ラインの停止区間A',ラインの停止区間B']] = stdsc.fit_transform(df_make[['ラインの停止区間A','ラインの停止区間B']])
+test_y2 = df_make2["不良"]
+df_make2 = pd.get_dummies(df_make2, columns=["製品の位置情報"])
+df_make2 = pd.get_dummies(df_make2, columns=["使用装置"])
+test_x2 = df_make2.drop(["不良"], axis=1)
+pred_test = model.predict(test_x2)
+plt.plot(pred_test, color="red") #予測線
+plt.plot(np.array(test_y2), color="black", linestyle="dotted",linewidth="0.2") #答え
+precision, recall, fscore, _ = precision_recall_fscore_support(test_y2, pred_test, average='binary')
+score = model.score(test_x2, test_y2)
+print(f'精度: {score:.4f}')
+print(f'適合率: {precision:.4f}')
+print(f'再現率: {recall:.4f}')
+print(f'F値:   {fscore:.4f}')  ←ここでF値が10％ほどしか出ない
 ### 試したこと
 特徴量の増加：4個　→　７個