回答編集履歴

2倍しないとだめ！

2017/04/25 15:23

投稿

スコア5846

answer CHANGED Viewed

@@ -15,7 +15,7 @@
 > 行が単語の塊で、列がmecabで分けた単語です。
 データを見ないと推測でしかいえませんが、一番あやしいポイントは「列がmecabで分けた単語」です。
-分けた単語をファイルに出力して、クロスバリデーション分割数でファイルを分割しラベルのパターン数分以上の行列になっているか確認してみてください。
+分けた単語をファイルに出力して、クロスバリデーション分割数でファイルを分割しラベルのパターン数分*2以上の行列になっているか確認してみてください。
 □追加確認
 一番重要なポイントを確認するの忘れてました。

補足

2017/04/25 15:23

投稿

スコア5846

answer CHANGED Viewed

@@ -15,7 +15,7 @@
 > 行が単語の塊で、列がmecabで分けた単語です。
 データを見ないと推測でしかいえませんが、一番あやしいポイントは「列がmecabで分けた単語」です。
-分けた単語をファイルに出力して、クロスバリデーション分割数に対して、ラベルのパターン数分の行列になっているか確認してみてください。
+分けた単語をファイルに出力して、クロスバリデーション分割数でファイルを分割しラベルのパターン数分以上の行列になっているか確認してみてください。
 □追加確認
 一番重要なポイントを確認するの忘れてました。

言葉がぬけていたので・・

2017/04/25 15:20

投稿

スコア5846

answer CHANGED Viewed

@@ -15,7 +15,7 @@
 > 行が単語の塊で、列がmecabで分けた単語です。
 データを見ないと推測でしかいえませんが、一番あやしいポイントは「列がmecabで分けた単語」です。
-分けた単語をファイルに出力して、行列になっているか確認してみてください。
+分けた単語をファイルに出力して、クロスバリデーション分割数に対して、ラベルのパターン数分の行列になっているか確認してみてください。
 □追加確認
 一番重要なポイントを確認するの忘れてました。

cross_val_score cv2についての確認

2017/04/25 14:45

投稿

スコア5846

answer CHANGED Viewed

@@ -15,4 +15,8 @@
 > 行が単語の塊で、列がmecabで分けた単語です。
 データを見ないと推測でしかいえませんが、一番あやしいポイントは「列がmecabで分けた単語」です。
-分けた単語をファイルに出力して、行列になっているか確認してみてください。
+分けた単語をファイルに出力して、行列になっているか確認してみてください。
+□追加確認
+一番重要なポイントを確認するの忘れてました。
+cross_val_score関数のパラメータをcv=2に設定しても同じエラーメッセージは発生しますか？

分けた単語

2017/04/25 14:42

投稿

スコア5846

answer CHANGED Viewed

@@ -15,4 +15,4 @@
 > 行が単語の塊で、列がmecabで分けた単語です。
 データを見ないと推測でしかいえませんが、一番あやしいポイントは「列がmecabで分けた単語」です。
-ファイルに出力して、行列になっているか確認してみてください。
+分けた単語をファイルに出力して、行列になっているか確認してみてください。

追加質問への回答

2017/04/25 13:44

投稿

スコア5846

answer CHANGED Viewed

@@ -5,4 +5,14 @@
 クロスバリデーションの分割数と比較しサンプル数（入力データ）が少なすぎる時に発生するエラーです。
 分割数(cv=10)の値を小さくするか、サンプル数を増やしてください。
-公式ドキュメントの[チャートシート](http://scikit-learn.org/stable/tutorial/machine_learning_map/#choosing-the-right-estimator)では、最低50サンプルから始めてくださいとなってます。
+公式ドキュメントの[チャートシート](http://scikit-learn.org/stable/tutorial/machine_learning_map/#choosing-the-right-estimator)では、最低50サンプルから始めてくださいとなってます。
+---
+追加質問への回答です。
+> サンプル数が十分にあるのにこのようなエラーが出てしまうのは、行列の配列など、サンプル数を的確に処理できる形にできてないなどの「サンプル数が足りない」とは別の問題があると考えられるのですがこの推測は正しいでしょうか？
+あってると思います。ベクタライザを使用していないとのことなので、
+> 行が単語の塊で、列がmecabで分けた単語です。
+データを見ないと推測でしかいえませんが、一番あやしいポイントは「列がmecabで分けた単語」です。
+ファイルに出力して、行列になっているか確認してみてください。

本文に参考情報のリンクを反映

2017/04/25 13:42

投稿

スコア5846

answer CHANGED Viewed

@@ -3,7 +3,6 @@
 分割数がn_splits = 10でサンプル数より大きくなることはありません：2
 クロスバリデーションの分割数と比較しサンプル数（入力データ）が少なすぎる時に発生するエラーです。
-分割数(cv=10)を小さくするか、サンプル数を増やしてください
+分割数(cv=10)の値を小さくするか、サンプル数を増やしてください。
-□参考情報
-公式ドキュメントの[チャートシート](http://scikit-learn.org/stable/tutorial/machine_learning_map/#choosing-the-right-estimator)
+公式ドキュメントの[チャートシート](http://scikit-learn.org/stable/tutorial/machine_learning_map/#choosing-the-right-estimator)では、最低50サンプルから始めてくださいとなってます。