teratail header banner
teratail header banner
質問するログイン新規登録

質問編集履歴

5

追記質問

2017/04/27 03:43

投稿

trafalbad
trafalbad

スコア303

title CHANGED
File without changes
body CHANGED
@@ -38,7 +38,7 @@
38
38
  ```
39
39
 
40
40
 
41
- トレーニングデータの概要は下記の図のようになっています(見える部分の文字は特定されない情報です)
41
+ トレーニングデータの概要は下記の図のようになっています(見える部分の文字は特定されない情報です
42
42
  行は単語の塊ですがインデックス表記になっています。列が単語で行の単語の塊に該当する部分の値が1になっています。
43
43
 
44
44
  ![](93e8a29525e01a99a1a0ba51b75b7dd0.png)

4

修正

2017/04/27 03:43

投稿

trafalbad
trafalbad

スコア303

title CHANGED
File without changes
body CHANGED
@@ -37,6 +37,8 @@
37
37
  too many indices for array#エラーメッセージ
38
38
  ```
39
39
 
40
+
40
41
  トレーニングデータの概要は下記の図のようになっています(見える部分の文字は特定されない情報です)
42
+ 行は単語の塊ですがインデックス表記になっています。列が単語で行の単語の塊に該当する部分の値が1になっています。
41
43
 
42
- ![行は単語の塊ですがインデックス表記になっています。列が単語で行の単語の塊に該当する部分の値が1になっています。](93e8a29525e01a99a1a0ba51b75b7dd0.png)
44
+ ![](93e8a29525e01a99a1a0ba51b75b7dd0.png)

3

質問追記

2017/04/26 02:54

投稿

trafalbad
trafalbad

スコア303

title CHANGED
File without changes
body CHANGED
@@ -19,4 +19,24 @@
19
19
  クロスバリデーションのためにサンプル数が足らないとのエラーメッセージが出ていますが、サンプル数は2000ほどあります。
20
20
  行が単語の塊で、列がmecabで分けた単語です。特徴ベクトル抽出にCountVectorizer、TfidfVectorizerなどのベクタライザは使用していません。普通にトレーニングセットで学習&テストセットで予測では確率はでますが、クロスバリデーションをしようとするとこのように上手くいきません。
21
21
 
22
- サンプル数が十分にあるのにこのようなエラーが出てしまうのは、行列の配列など、サンプル数を的確に処理できる形にできてないなどの「サンプル数が足りない」とは別の問題があると考えられるのですがこの推測は正しいでしょうか?
22
+ サンプル数が十分にあるのにこのようなエラーが出てしまうのは、行列の配列など、サンプル数を的確に処理できる形にできてないなどの「サンプル数が足りない」とは別の問題があると考えられるのですがこの推測は正しいでしょうか?
23
+
24
+ 質問追記2
25
+
26
+ cv=2の時のエラーメッセージは
27
+ All the n_groups for individual classes are less than n_splits=2.
28
+
29
+ です。その前に.data.shapeでトレーニングセットとテストセットの値を変形する前は逆に配列が多すぎるとでてしまいます。
30
+ ```
31
+ x_train=xx.as_matrix()
32
+ y_train=Y.as_matrix().T
33
+
34
+ from sklearn.model_selection import cross_val_score
35
+ cross_val_score(clf, x_train, y_train, cv=10)
36
+
37
+ too many indices for array#エラーメッセージ
38
+ ```
39
+
40
+ トレーニングデータの概要は下記の図のようになっています(見える部分の文字は特定されない情報です)
41
+
42
+ ![行は単語の塊ですがインデックス表記になっています。列が単語で行の単語の塊に該当する部分の値が1になっています。](93e8a29525e01a99a1a0ba51b75b7dd0.png)

2

2017/04/26 02:53

投稿

trafalbad
trafalbad

スコア303

title CHANGED
File without changes
body CHANGED
@@ -17,6 +17,6 @@
17
17
  ```
18
18
  質問追記
19
19
  クロスバリデーションのためにサンプル数が足らないとのエラーメッセージが出ていますが、サンプル数は2000ほどあります。
20
- 行が単語の塊で、列がmecabで分けた単語です。特徴ベクトル抽出にベイズの特定のメソッドは使用していません
20
+ 行が単語の塊で、列がmecabで分けた単語です。特徴ベクトル抽出にCountVectorizer、TfidfVectorizerなどのクタラは使用していません。普通にトレーニングセットで学習&テストセットで予測では確率はでますが、クロスバリデーションをしようとするとこのように上手くいきません。
21
21
 
22
22
  サンプル数が十分にあるのにこのようなエラーが出てしまうのは、行列の配列など、サンプル数を的確に処理できる形にできてないなどの「サンプル数が足りない」とは別の問題があると考えられるのですがこの推測は正しいでしょうか?

1

2017/04/25 12:50

投稿

trafalbad
trafalbad

スコア303

title CHANGED
File without changes
body CHANGED
@@ -14,4 +14,9 @@
14
14
 
15
15
  Cannot have number of splits n_splits=10 greater than the number of samples: 2.#エラーメッセージ
16
16
 
17
- ```
17
+ ```
18
+ 質問追記
19
+ クロスバリデーションのためにサンプル数が足らないとのエラーメッセージが出ていますが、サンプル数は2000ほどあります。
20
+ 行が単語の塊で、列がmecabで分けた単語です。特徴ベクトル抽出にベイズの特定のメソッドは使用していません
21
+
22
+ サンプル数が十分にあるのにこのようなエラーが出てしまうのは、行列の配列など、サンプル数を的確に処理できる形にできてないなどの「サンプル数が足りない」とは別の問題があると考えられるのですがこの推測は正しいでしょうか?