質問編集履歴

追記質問

2017/04/27 03:43

投稿

trafalbad

スコア303

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -38,7 +38,7 @@
 ```
-トレーニングデータの概要は下記の図のようになっています（見える部分の文字は特定されない情報です）
+トレーニングデータの概要は下記の図のようになっています（見える部分の文字は特定されない情報です。）
 行は単語の塊ですがインデックス表記になっています。列が単語で行の単語の塊に該当する部分の値が１になっています。
 ![](93e8a29525e01a99a1a0ba51b75b7dd0.png)

7 514

修正

2017/04/27 03:43

投稿

trafalbad

スコア303

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -37,6 +37,8 @@
 too many indices for array#エラーメッセージ
 ```
 トレーニングデータの概要は下記の図のようになっています（見える部分の文字は特定されない情報です）
+行は単語の塊ですがインデックス表記になっています。列が単語で行の単語の塊に該当する部分の値が１になっています。
-![行は単語の塊ですがインデックス表記になっています。列が単語で行の単語の塊に該当する部分の値が１になっています。](93e8a29525e01a99a1a0ba51b75b7dd0.png)
+![](93e8a29525e01a99a1a0ba51b75b7dd0.png)

7 514

質問追記

2017/04/26 02:54

投稿

trafalbad

スコア303

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -19,4 +19,24 @@
 クロスバリデーションのためにサンプル数が足らないとのエラーメッセージが出ていますが、サンプル数は2000ほどあります。
 行が単語の塊で、列がmecabで分けた単語です。特徴ベクトル抽出にCountVectorizer、TfidfVectorizerなどのベクタライザは使用していません。普通にトレーニングセットで学習&テストセットで予測では確率はでますが、クロスバリデーションをしようとするとこのように上手くいきません。
-サンプル数が十分にあるのにこのようなエラーが出てしまうのは、行列の配列など、サンプル数を的確に処理できる形にできてないなどの「サンプル数が足りない」とは別の問題があると考えられるのですがこの推測は正しいでしょうか？
+サンプル数が十分にあるのにこのようなエラーが出てしまうのは、行列の配列など、サンプル数を的確に処理できる形にできてないなどの「サンプル数が足りない」とは別の問題があると考えられるのですがこの推測は正しいでしょうか？
+質問追記２
+cv=2の時のエラーメッセージは
+All the n_groups for individual classes are less than n_splits=2.
+です。その前に.data.shapeでトレーニングセットとテストセットの値を変形する前は逆に配列が多すぎるとでてしまいます。
+```
+x_train=xx.as_matrix()
+y_train=Y.as_matrix().T
+from sklearn.model_selection import cross_val_score
+cross_val_score(clf, x_train, y_train, cv=10)
+too many indices for array#エラーメッセージ
+```
+トレーニングデータの概要は下記の図のようになっています（見える部分の文字は特定されない情報です）
+![行は単語の塊ですがインデックス表記になっています。列が単語で行の単語の塊に該当する部分の値が１になっています。](93e8a29525e01a99a1a0ba51b75b7dd0.png)

7 514

2017/04/26 02:53

投稿

trafalbad

スコア303

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -17,6 +17,6 @@
 ```
 質問追記
 クロスバリデーションのためにサンプル数が足らないとのエラーメッセージが出ていますが、サンプル数は2000ほどあります。
-行が単語の塊で、列がmecabで分けた単語です。特徴ベクトル抽出にベイズの特定のメソッドは使用していません
+行が単語の塊で、列がmecabで分けた単語です。特徴ベクトル抽出にCountVectorizer、TfidfVectorizerなどのベクタライザは使用していません。普通にトレーニングセットで学習&テストセットで予測では確率はでますが、クロスバリデーションをしようとするとこのように上手くいきません。
 サンプル数が十分にあるのにこのようなエラーが出てしまうのは、行列の配列など、サンプル数を的確に処理できる形にできてないなどの「サンプル数が足りない」とは別の問題があると考えられるのですがこの推測は正しいでしょうか？

7 514

2017/04/25 12:50

投稿

trafalbad

スコア303

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -14,4 +14,9 @@
 Cannot have number of splits n_splits=10 greater than the number of samples: 2.#エラーメッセージ
-```
+```
+質問追記
+クロスバリデーションのためにサンプル数が足らないとのエラーメッセージが出ていますが、サンプル数は2000ほどあります。
+行が単語の塊で、列がmecabで分けた単語です。特徴ベクトル抽出にベイズの特定のメソッドは使用していません
+サンプル数が十分にあるのにこのようなエラーが出てしまうのは、行列の配列など、サンプル数を的確に処理できる形にできてないなどの「サンプル数が足りない」とは別の問題があると考えられるのですがこの推測は正しいでしょうか？

7 514