🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中!

\teratail特別グッズやAmazonギフトカード最大2,000円分が当たる!/

詳細はこちら
Keras

Kerasは、TheanoやTensorFlow/CNTK対応のラッパーライブラリです。DeepLearningの数学的部分を短いコードでネットワークとして表現することが可能。DeepLearningの最新手法を迅速に試すことができます。

深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

1726閲覧

scikit_learn train_test_splitを用いて要素数に偏りがないようにテストデータを作成したい。

yuki_O_7

総合スコア5

Keras

Kerasは、TheanoやTensorFlow/CNTK対応のラッパーライブラリです。DeepLearningの数学的部分を短いコードでネットワークとして表現することが可能。DeepLearningの最新手法を迅速に試すことができます。

深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2019/12/31 10:54

前提・実現したいこと

クラスごとのラベルの数に偏りのある学習データをscikit-learnのtrain_test_splitを用いて学習データと訓練データに分割したいと考えています。

発生している問題

クラスごとに、分割する割合を決めたいのですがうまく実装できません。 クラスによってデータを集めることが難しいものを学習データとあるので、どうしても大きな偏りができてしまいます。 そのため、テストデータのクラスごとの要素数が極端に少なくならないようにする方法を探しています。

該当のソースコード

python

1#学習データを想定(1000*2*2*1の配列) 2a = np.arange(4000).reshape(1000,2,2,1) 3 4#学習データのラベルを想定(1000*1の配列) 5b = np.array([0] * 500 + [1] *200 + [2] * 200 + [3] * 100).reshape(1000,1) 6 7#分割 8X_train, X_test, Y_train, Y_test = train_test_split(a, b,test_size=0.1,random_state=1,stratify=b) 9 10#学習データとテストデータの次元と要素数の確認 11print(X_train.shape) 12print(Y_train.shape) 13print(X_test.shape) 14print(Y_test.shape) 15 16#学習データとテストデータのクラスの要素数の確認 17print((Y_test == 0).sum()) 18print((Y_test == 1).sum()) 19print((Y_test == 2).sum()) 20print((Y_test == 3).sum()) 21 22#実行結果 23(750, 2, 2, 1) 24(750, 1) 25(250, 2, 2, 1) 26(250, 1) 27125 2850 2950 3025 31

入力データは私が実際に用いるデータの次元を想定し、4次元にしました。

この場合、クラスラベル3の要素数が少ないので、クラス3をもう少し学習データに回したり、テストデータ側に回したり、できればと考えています(例:テストデータ内でクラス3の要素数が25、と少ないので、クラス0 1 2の要素数はそのままに、クラス3だけ50に増やす)。
または、テストデータ内でクラス3の要素数はそのままにして、クラス0 1 2を学習データ側に回して、テストデータ内の各クラスの要素数を統一したいと考えています(例:テストデータ内の要素数を全て50に統一する)。

試したこと

stratify=に訓練データのラベルの配列を指定した。
test_size=の値変化させてみた。

調べて見たところ、クラスごとに割合を指定している、文献やサイトは見つけることができませんでした。

補足情報(FW/ツールのバージョンなど)

scilit-learn 0.21.3
python 3.6.8(.pyenv)

どうぞ、よろしくお願い致します。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

meg_

2019/12/31 12:08

一般的にはシャッフルするかと思いますが、それでは不十分なのでしょうか?
yuki_O_7

2019/12/31 13:17

ご返信ありがとうございます。 はい、シャッフルももちろんしたいのですが、データ数が少ないと何かと問題が起きると思うので、柔軟に対応ができるように作成しておきたいと考えております。
meg_

2019/12/31 13:31

機械学習において訓練データのクラスの割合を恣意的に変えることはするものでしょうか?(サンプルの取り方が悪くて極端に偏った場合はサンプル数を増やすべきと思います) 学習したモデルがフィットしているかどうかはテストデータで検証するものではないでしょうか?
guest

回答1

0

ベストアンサー

現時点でscikit-learnに実装されているもので、その仕様のものは私が確認した限りではありません。念の為、下記を見てみてください(model_selection配下に見つけられなければありません)。

API Reference — scikit-learn 0.22 documentation module-sklearn.model_selection

numpyなどを用いて自分で実装すること自体は可能でしょうから、そうすると良いかと思います。

投稿2019/12/31 22:48

hayataka2049

総合スコア30935

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問