回答率: 85.47%

質問するログイン新規登録

トップに関する質問 Python　Filter Method実装中のエラー

編集履歴

質問編集履歴

3

質問内容の変更、更新

2019/06/19 02:33

投稿

スコア16

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -1,8 +1,8 @@
 下のコードを実際に動かそうとすると
-ValueError: multiclass format is not supported　とエラーが発生してしまいます。
+ValueError: bad input shape (1000, 4)とエラーが発生してしまいます。
-cross_val_scoreが原因なはずですがどのようにすればエラーが消えますでしょうか。一応調べたらStratifiedKFoldを使えば解消されそうだと考えたのですが上手くいきません。
+cross_val_scoreの所が原因なはずですがどのようにすればエラーが消えますでしょうか。分類元のデータの個数とその分類結果の個数を合わせる必要があるのは分かりますが数変えたりしても解消されません。
 扱うデータの中身は
@@ -28,26 +28,52 @@
 ```Python
-#線形分離でうまく両分布が分かれそうな特徴を選んだあとの操作
+#目視ではなく機械的に選択。ANOVAのF値を用いる
-#これを使ってロジスティック回帰を評価しようとして見ようとしている
 ##make matrix
-df = pd.read_csv('python/example.csv',encoding="shift-jis") #用いるデータ
+X = df.drop('Class', axis=1)
-X = df[['V0','V2','V3','V5','V6','V7','V9']]
 y = df.Class
-##10-foldCV, LogisticRegression, PR_AUC
+scores=[]
-pr_auc = cross_val_score(LogisticRegression(), X, y, scoring="average_precision", cv=10)
+for n in tqdm(range(1,len(X.columns))):
-print('各分割でのスコア:',pr_auc)
+    print('\n説明変数の数n=',n)
+    ##select features
+    select = SelectKBest(k=n)
+    select.fit(X, y)
+    mask = select.get_support()
+    X_selected = X.iloc[:,mask]
+    ##10-foldCV, LogisticRegression, PR_AUC
+    #cv=StratifiedKFold(n_splits=3)
+    #cross_val_scoreは、classifierとトレーニング用データ、テスト用データを指定してその精度を割り出せる便利なツール
+    #cvは交差検証の略でデータのsplitの方法を指定できる
+    #n_splitはデータをいくつに分けるかを指定するもの。defaultは3。
+    logreg = LogisticRegression()
+    kfold=KFold(n_splits=3)
+    pr_auc = cross_val_score(logreg, X_selected, y, scoring="average_precision", cv=kfold)
+    #pr_auc = cross_val_score(LogisticRegression(), X_selected, y, scoring="average_precision", cv=kfold)
+    scores.append(np.mean(pr_auc))
-print('\nその平均:',np.mean(pr_auc))
+    print('平均のPR_AUC:',scores[n-1])
 ```

2

2019/06/19 02:33

投稿

スコア16

test CHANGED Viewed

File without changes

test CHANGED Viewed

File without changes

1

2019/06/18 11:22

投稿

スコア16

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -20,7 +20,11 @@
 32 ・・・　　　32　　4
+・
+・
-のように全部が3000近いビッグデータで、Classが1～4に分かれていてそのクラスを予測する目的です。
+のように全部で3000近いビッグデータで、Classが1～4に分かれていてそのクラスを予測する目的です。
 ```Python