質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Q&A

解決済

1回答

11864閲覧

「The least populated class in y has only 1 member, which is too few. 」」の対処方法

kouji_39

総合スコア164

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

0グッド

0クリップ

投稿2020/04/12 11:19

編集2020/04/12 15:42

勾配部―スティング決定木のチューニングというアンサンブル学習で回帰予測を
実施しました。

#Numpyの配列に変換 y = np.array(dataset[target_col])#ターゲット変数 X = np.array(dataset[feature_cols])#説明変数 #bin output variable to split training and testing sets into two similar sets bins = np.arange(6) binned_y = np.digitize(y, bins) #トレーニングとテストでデータ分割 from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,stratify=binned_y)

このデータ分割後に次のエラーとなります。

ValueError Traceback (most recent call last)

3 4 from sklearn.model_selection import train_test_split

----> 5 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,stratify=binned_y)

2 frames

1657 class_counts = np.bincount(y_indices)
1658 if np.min(class_counts) < 2:
-> 1659 raise ValueError("The least populated class in y has only 1"
1660 " member, which is too few. The minimum"
1661 " number of groups for any class cannot"

ValueError: The least populated class in y has only 1 member, which is too few. The minimum number of groups for any class cannot be less than 2.

(上記のエラーの翻訳では、ValueError:yで最も人口の少ないクラスにはメンバーが1つしかなく、少なすぎます。クラスのグループの最小数は2未満にはできません。)

どのようにエラー回避したらよいでしょうか。
よろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

meg_

2020/04/12 11:23

「このデータ分割後に次のエラーとなります。」というのは「train_test_split()」でエラーが発生しているのか、「train_test_split()」は正常に実行できて次のコードでエラーが発生している、のどちらですか?
y_waiwai

2020/04/12 11:24

このままではコードが読めないので、質問を編集し、<code>ボタンを押し、出てくる’’’の枠の中にコードを貼り付けてください
kouji_39

2020/04/12 11:44

データに関しては、ランダムフォレストでも使ったデータで、トレインとテストの分割、つまりtrain_test_split()は、問題ないと思います。「stratify=binned_y」が問題があると感じています。 下記の2行が問題個所と感じています。 bins = np.arange(6) binned_y = np.digitize(y, bins)
meg_

2020/04/12 12:03

エラー発生箇所がよく分からないので、エラーメッセージ全体を質問に掲載出来ませんか?
kouji_39

2020/04/12 14:12

ちなみに、このプログラムを使用するに、4つに分けたデータがあり、3つ分のデータはエラーが出ずに動作します。前述しましたが、ランダムフォレストでは4つのデータともエラーは出てないものです。データ構造(説明変数と目的変数の数や型式)も同じ4つなので、どういうことでしょう?
guest

回答1

0

ベストアンサー

おそらく「stratify=binned_y」が原因でエラーが出ているかと思われます。
データの比率が極端に偏っているとこのエラーが出るようです。
stratifyの指定なしにするしかないのではないでしょうか?

投稿2020/04/12 14:52

meg_

総合スコア10762

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kouji_39

2020/04/12 15:41

from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) としました。これで、エラーは無くなります。  層化サンプリング(stratifyの指定)が、勾配ブ―スティング決定木のチューニングでどういう位置 づけなのかについては、今後の課題とします。  同じアンサンブル学習のランダムフォレストでは上記の方法で、トレインとテストを分割したので、 勾配ブ―スティング決定木手法とランダムフォレストとの比較検討という意味では、層化サンプリング を省いたコードで実施することにします。
meg_

2020/04/12 15:50

データ中の比率の問題がと思うのですが、ランダムフォレストで使用したデータと全く同じものですか? テストサイズも全く同じですか?
kouji_39

2020/04/13 00:44

層化サンプリングは、「偏ったサンプル構成の母集団からサンプリングする際に役立つ手法。 母集団を、「層」という小集団に分け、層ごとの分散はなるべく小さく、層間の分散はなる べく大きくなるように分けるもの。つまり、同じ属性を持ったサンプル同士でグループ化する手法」 https://qiita.com/takahashi_yukou/items/c1282e358ebfbd0dd43f ランダムフォレストでは、train_test_splitを使用する時、random_stateを指定したので、今回も層化 サンプリングではなく、ランダムにデータ分割するようにしたいと考えています。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問