質問編集履歴

5

追記質問

2017/04/27 03:43

投稿

trafalbad
trafalbad

スコア303

test CHANGED
File without changes
test CHANGED
@@ -78,7 +78,7 @@
78
78
 
79
79
 
80
80
 
81
- トレーニングデータの概要は下記の図のようになっています(見える部分の文字は特定されない情報です)
81
+ トレーニングデータの概要は下記の図のようになっています(見える部分の文字は特定されない情報です
82
82
 
83
83
  行は単語の塊ですがインデックス表記になっています。列が単語で行の単語の塊に該当する部分の値が1になっています。
84
84
 

4

修正

2017/04/27 03:43

投稿

trafalbad
trafalbad

スコア303

test CHANGED
File without changes
test CHANGED
@@ -76,8 +76,12 @@
76
76
 
77
77
 
78
78
 
79
+
80
+
79
81
  トレーニングデータの概要は下記の図のようになっています(見える部分の文字は特定されない情報です)
82
+
83
+ 行は単語の塊ですがインデックス表記になっています。列が単語で行の単語の塊に該当する部分の値が1になっています。
80
84
 
81
85
 
82
86
 
83
- ![行は単語の塊ですがインデックス表記になっています。列が単語で行の単語の塊に該当する部分の値が1になっています。](93e8a29525e01a99a1a0ba51b75b7dd0.png)
87
+ ![](93e8a29525e01a99a1a0ba51b75b7dd0.png)

3

質問追記

2017/04/26 02:54

投稿

trafalbad
trafalbad

スコア303

test CHANGED
File without changes
test CHANGED
@@ -41,3 +41,43 @@
41
41
 
42
42
 
43
43
  サンプル数が十分にあるのにこのようなエラーが出てしまうのは、行列の配列など、サンプル数を的確に処理できる形にできてないなどの「サンプル数が足りない」とは別の問題があると考えられるのですがこの推測は正しいでしょうか?
44
+
45
+
46
+
47
+ 質問追記2
48
+
49
+
50
+
51
+ cv=2の時のエラーメッセージは
52
+
53
+ All the n_groups for individual classes are less than n_splits=2.
54
+
55
+
56
+
57
+ です。その前に.data.shapeでトレーニングセットとテストセットの値を変形する前は逆に配列が多すぎるとでてしまいます。
58
+
59
+ ```
60
+
61
+ x_train=xx.as_matrix()
62
+
63
+ y_train=Y.as_matrix().T
64
+
65
+
66
+
67
+ from sklearn.model_selection import cross_val_score
68
+
69
+ cross_val_score(clf, x_train, y_train, cv=10)
70
+
71
+
72
+
73
+ too many indices for array#エラーメッセージ
74
+
75
+ ```
76
+
77
+
78
+
79
+ トレーニングデータの概要は下記の図のようになっています(見える部分の文字は特定されない情報です)
80
+
81
+
82
+
83
+ ![行は単語の塊ですがインデックス表記になっています。列が単語で行の単語の塊に該当する部分の値が1になっています。](93e8a29525e01a99a1a0ba51b75b7dd0.png)

2

2017/04/26 02:53

投稿

trafalbad
trafalbad

スコア303

test CHANGED
File without changes
test CHANGED
@@ -36,7 +36,7 @@
36
36
 
37
37
  クロスバリデーションのためにサンプル数が足らないとのエラーメッセージが出ていますが、サンプル数は2000ほどあります。
38
38
 
39
- 行が単語の塊で、列がmecabで分けた単語です。特徴ベクトル抽出にベイズの特定のメソッドは使用していません
39
+ 行が単語の塊で、列がmecabで分けた単語です。特徴ベクトル抽出にCountVectorizer、TfidfVectorizerなどのクタラは使用していません。普通にトレーニングセットで学習&テストセットで予測では確率はでますが、クロスバリデーションをしようとするとこのように上手くいきません。
40
40
 
41
41
 
42
42
 

1

2017/04/25 12:50

投稿

trafalbad
trafalbad

スコア303

test CHANGED
File without changes
test CHANGED
@@ -31,3 +31,13 @@
31
31
 
32
32
 
33
33
  ```
34
+
35
+ 質問追記
36
+
37
+ クロスバリデーションのためにサンプル数が足らないとのエラーメッセージが出ていますが、サンプル数は2000ほどあります。
38
+
39
+ 行が単語の塊で、列がmecabで分けた単語です。特徴ベクトル抽出にベイズの特定のメソッドは使用していません
40
+
41
+
42
+
43
+ サンプル数が十分にあるのにこのようなエラーが出てしまうのは、行列の配列など、サンプル数を的確に処理できる形にできてないなどの「サンプル数が足りない」とは別の問題があると考えられるのですがこの推測は正しいでしょうか?