質問編集履歴

本来行いたかった質問へ変更しました。

2019/11/13 20:32

投稿

SyunSyun

スコア24

title CHANGED Viewed

	@@ -1,1 +1,1 @@
1	- 機械学習：特徴量数の調整
1	+ 機械学習：特徴量数を一つずつ加えて精度が上がるときにだけ、その特徴量を採用したい。

body CHANGED Viewed

@@ -1,13 +1,14 @@
 機械学習初心者です。
 現在取り組んでいる課題に500sampleで63個程度の特徴量の2項分類問題があります。
+機械学習においては特徴量の数は多ければ多いほど良いことが多いことは理解していますが、本当にそうなのか確認したいと思いました。
-その50個の特徴量の内から、カラムの2番目、3番目、4番目の3つだけ取り出した場合の精度（ROC_AUC）をしりたいのですが、「X has 3 features per sample; expecting 63」エラーが出てしまいます。
+そこで63個の特徴量の内から、「特徴量１、２，３、、、６３と一つずつ加えていき、精度（ROC_AUC）が低下か上がらなければprintで『特徴量Xは精度に貢献しません』とアラームを出す。」というプログラミングを書きたいと思っていますが、エラーが出てしまいます。
-どこが直すと3つのみの特徴量を選択した場合の精度が出力できるか、指摘していただけると幸いです。
-ダミーdfは、
+このダミーデータフレームは、
 https://github.com/yamanaka1/dammy2
 に置いてあります。
+こうするとうまくいくかも、、というアドバイスありましたら大変ありがたいです。
 ```python
 import numpy as np
 import pandas as pd
 from sklearn.linear_model import LogisticRegression
@@ -15,21 +16,38 @@
 from sklearn.metrics import roc_curve
 from sklearn.metrics import roc_auc_score
-X = df1.iloc[:, [1,2,3]]
-y = df1.iloc[:,-1]
+AUC = [0.5]
+for a in np.arange(2,64,1):
+  X = df1.iloc[:, 1:a]
+  y = df1.iloc[:,-1]
-lr = LogisticRegression(C = 0.1, class_weight='balanced', random_state=0)
+  lr = LogisticRegression(C = 0.1, class_weight='balanced', random_state=0)
+  X_train, X_test, y_train, y_test = train_test_split(
+      X, y, test_size=0.2, random_state=0)
+  lr.fit(X_train, y_train)
+  cv_scores_train = cross_val_score(lr, X_train, y_train, cv = 3)
+  probs = lr.predict_proba(X_test)
+  probs2 = probs[:, 1]
+  auc = roc_auc_score(y_test, probs2)
+  if auc > AUC(-1):
+    print('AUC: {:.2f}'.format(auc))
+    AUC.append(auc)
+  else:
+    print('特徴量｛｝は精度に寄与しません'.format(a))
+```
+ここでエラーは以下の様にでます。
+TypeError                                 Traceback (most recent call last)
+<ipython-input-56-8bf996652a36> in <module>()
-X_train, X_test, y_train, y_test = train_test_split(
+     22   auc = roc_auc_score(y_test, probs2)
+     23
+---> 24   if auc > AUC(-1):
-    X, y, test_size=0.2, random_state=0)
+     25     print('AUC: {:.2f}'.format(auc))
+     26     AUC.append(auc)
-lr.fit(X_train, y_train)
-cv_scores_train = cross_val_score(clf, X_train, y_train, cv = 3)
+TypeError: 'list' object is not callable
-probs = clf.predict_proba(X_test)
-probs2 = probs[:, 1]
-auc = roc_auc_score(y_test, probs2)
-print('AUC: {:.2f}'.format(auc))
-```
-アドバイスを頂けると大変ありがたいです。
+listではよくないとありますが、アドバイスを頂けると大変ありがたいです。

ダミーデータフレームを追加しました。

2019/11/13 20:32

投稿

SyunSyun

スコア24

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -2,14 +2,18 @@
 現在取り組んでいる課題に500sampleで63個程度の特徴量の2項分類問題があります。
 その50個の特徴量の内から、カラムの2番目、3番目、4番目の3つだけ取り出した場合の精度（ROC_AUC）をしりたいのですが、「X has 3 features per sample; expecting 63」エラーが出てしまいます。
 どこが直すと3つのみの特徴量を選択した場合の精度が出力できるか、指摘していただけると幸いです。
+ダミーdfは、
+https://github.com/yamanaka1/dammy2
+に置いてあります。
+```python
 import numpy as np
 import pandas as pd
 from sklearn.linear_model import LogisticRegression
 from sklearn.model_selection import train_test_split, cross_val_score
 from sklearn.metrics import roc_curve
 from sklearn.metrics import roc_auc_score
-from sklearn.metrics import confusion_matrix
 X = df1.iloc[:, [1,2,3]]
 y = df1.iloc[:,-1]
@@ -26,4 +30,6 @@
 probs2 = probs[:, 1]
 auc = roc_auc_score(y_test, probs2)
-print('AUC: {:.2f}'.format(auc))
+print('AUC: {:.2f}'.format(auc))
+```
+アドバイスを頂けると大変ありがたいです。