質問編集履歴
5
追記質問
test
CHANGED
File without changes
|
test
CHANGED
@@ -78,7 +78,7 @@
|
|
78
78
|
|
79
79
|
|
80
80
|
|
81
|
-
トレーニングデータの概要は下記の図のようになっています(見える部分の文字は特定されない情報です)
|
81
|
+
トレーニングデータの概要は下記の図のようになっています(見える部分の文字は特定されない情報です。)
|
82
82
|
|
83
83
|
行は単語の塊ですがインデックス表記になっています。列が単語で行の単語の塊に該当する部分の値が1になっています。
|
84
84
|
|
4
修正
test
CHANGED
File without changes
|
test
CHANGED
@@ -76,8 +76,12 @@
|
|
76
76
|
|
77
77
|
|
78
78
|
|
79
|
+
|
80
|
+
|
79
81
|
トレーニングデータの概要は下記の図のようになっています(見える部分の文字は特定されない情報です)
|
82
|
+
|
83
|
+
行は単語の塊ですがインデックス表記になっています。列が単語で行の単語の塊に該当する部分の値が1になっています。
|
80
84
|
|
81
85
|
|
82
86
|
|
83
|
-
![
|
87
|
+
![](93e8a29525e01a99a1a0ba51b75b7dd0.png)
|
3
質問追記
test
CHANGED
File without changes
|
test
CHANGED
@@ -41,3 +41,43 @@
|
|
41
41
|
|
42
42
|
|
43
43
|
サンプル数が十分にあるのにこのようなエラーが出てしまうのは、行列の配列など、サンプル数を的確に処理できる形にできてないなどの「サンプル数が足りない」とは別の問題があると考えられるのですがこの推測は正しいでしょうか?
|
44
|
+
|
45
|
+
|
46
|
+
|
47
|
+
質問追記2
|
48
|
+
|
49
|
+
|
50
|
+
|
51
|
+
cv=2の時のエラーメッセージは
|
52
|
+
|
53
|
+
All the n_groups for individual classes are less than n_splits=2.
|
54
|
+
|
55
|
+
|
56
|
+
|
57
|
+
です。その前に.data.shapeでトレーニングセットとテストセットの値を変形する前は逆に配列が多すぎるとでてしまいます。
|
58
|
+
|
59
|
+
```
|
60
|
+
|
61
|
+
x_train=xx.as_matrix()
|
62
|
+
|
63
|
+
y_train=Y.as_matrix().T
|
64
|
+
|
65
|
+
|
66
|
+
|
67
|
+
from sklearn.model_selection import cross_val_score
|
68
|
+
|
69
|
+
cross_val_score(clf, x_train, y_train, cv=10)
|
70
|
+
|
71
|
+
|
72
|
+
|
73
|
+
too many indices for array#エラーメッセージ
|
74
|
+
|
75
|
+
```
|
76
|
+
|
77
|
+
|
78
|
+
|
79
|
+
トレーニングデータの概要は下記の図のようになっています(見える部分の文字は特定されない情報です)
|
80
|
+
|
81
|
+
|
82
|
+
|
83
|
+
![行は単語の塊ですがインデックス表記になっています。列が単語で行の単語の塊に該当する部分の値が1になっています。](93e8a29525e01a99a1a0ba51b75b7dd0.png)
|
2
test
CHANGED
File without changes
|
test
CHANGED
@@ -36,7 +36,7 @@
|
|
36
36
|
|
37
37
|
クロスバリデーションのためにサンプル数が足らないとのエラーメッセージが出ていますが、サンプル数は2000ほどあります。
|
38
38
|
|
39
|
-
行が単語の塊で、列がmecabで分けた単語です。特徴ベクトル抽出にベイ
|
39
|
+
行が単語の塊で、列がmecabで分けた単語です。特徴ベクトル抽出にCountVectorizer、TfidfVectorizerなどのベクタライザは使用していません。普通にトレーニングセットで学習&テストセットで予測では確率はでますが、クロスバリデーションをしようとするとこのように上手くいきません。
|
40
40
|
|
41
41
|
|
42
42
|
|
1
test
CHANGED
File without changes
|
test
CHANGED
@@ -31,3 +31,13 @@
|
|
31
31
|
|
32
32
|
|
33
33
|
```
|
34
|
+
|
35
|
+
質問追記
|
36
|
+
|
37
|
+
クロスバリデーションのためにサンプル数が足らないとのエラーメッセージが出ていますが、サンプル数は2000ほどあります。
|
38
|
+
|
39
|
+
行が単語の塊で、列がmecabで分けた単語です。特徴ベクトル抽出にベイズの特定のメソッドは使用していません
|
40
|
+
|
41
|
+
|
42
|
+
|
43
|
+
サンプル数が十分にあるのにこのようなエラーが出てしまうのは、行列の配列など、サンプル数を的確に処理できる形にできてないなどの「サンプル数が足りない」とは別の問題があると考えられるのですがこの推測は正しいでしょうか?
|