質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Keras

Kerasは、TheanoやTensorFlow/CNTK対応のラッパーライブラリです。DeepLearningの数学的部分を短いコードでネットワークとして表現することが可能。DeepLearningの最新手法を迅速に試すことができます。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Q&A

解決済

1回答

2777閲覧

kerasで画像データをアンダーサンプリングしたい

kku6

総合スコア47

Keras

Kerasは、TheanoやTensorFlow/CNTK対応のラッパーライブラリです。DeepLearningの数学的部分を短いコードでネットワークとして表現することが可能。DeepLearningの最新手法を迅速に試すことができます。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

0グッド

0クリップ

投稿2018/11/22 02:52

編集2018/11/22 04:16

前提・実現したいこと

正例:負例=1:20くらいの画像データがあります。この正例を正しく識別できる学習モデルを作りたいと考えています。まずは重み調整をしてみたのですが期待したほどの成果が出ませんでした。次にアンダーサンプリングを試したいと思ったのですが、やり方が分からないという状況です。どうかアドバイスをいただけませんでしょうか。
画像データは

Dataset┬train┬0┬a0001.jpg   │ │ ├a0002.jpg │ │ └... │ └1┬b0001.jpg │ └b0002.jpg └test─┬0┬a0010.jpg │ └a0011.jpg └1┬b0010.jpg └b0011.jpg

のように入っています。標準的だと思います。今はこのデータに対し

train_path = 'Dataset/train' test_path = 'Dataset/test' def load_data(folderpath, img_width, img_height): labelpath = glob.glob(os.path.join(folderpath,"*")) #labelpath='Dataset/train/0'と'Dataset/train/1' for label in labelpath: files = glob.glob(os.path.join(label,"*")) for file in files: image = cv2.imread(file) image = cv2.resize(image, (img_width, img_height)) cat = os.path.basename(os.path.dirname(file)) #ファイル名の'0'とか'1'をラベルにする。 x.append(image) y.append(cat) x = np.array(x) y = np.array(y) return (x,y) x_train, y_train = load_data(train_path,299,299) x_test, y_test = load_data(test_path,299,299)

で画像の配列とラベルの配列を取り出し、2つのクラスの重み(class_weights)を計算したら

model.fit_generator( train_datagen.flow(x_train, y_train, batch_size=batchSize), class_weight = class_weights, epochs = 500, validation_data = test_datagen.flow(x_test, y_test, batch_size=batchSize), verbose=1, callbacks=[reduce_lr, csv_logger, checkpointer] )

で回しています。このclass_weightsを取っ払い、代わりにアンダーサンプリングで学習させてみたいと考えています。

発生している問題・エラーメッセージ

私なりにアンダーサンプリングのコードを書いたのですがうまくいきませんでした。
load_data関数内でラベル0とラベル1について、画像をそれぞれ別の配列に入れ、多い方のデータをランダムに抽出して少ない方のデータに合わせるようにしました。ラベル0の方が多いなら下記の通りです。

def load_data(folderpath, img_width, img_height): all_img = [[],[]] all_cat = [[],[]] i=0 labelpath = glob.glob(os.path.join(folderpath,"*")) #labelpath='Dataset/train/0'と'Dataset/train/1' for label in labelpath: files = glob.glob(os.path.join(label,"*")) for file in files: image = cv2.imread(file) image = cv2.resize(image, (img_width, img_height)) cat = os.path.basename(os.path.dirname(file)) #ファイル名の'0'とか'1'をラベルにする。 all_img[i].append(image) all_cat[i].append(cat) resample_img0 = np.array(random.sample(all_img[0], len(all_img[1]))) resample_cat0 = np.array(random.sample(all_cat[0], len(all_cat[1]))) #配列の中身は全部0なので、どこをサンプリングしても結果は変わらない。なので適当にサンプリングしてOK。 x = np.vstack((resample_img0, all_img[1])) y = np.hstack((resample_cat0, all_cat[1])) return (x,y) x_train, y_train = load_data(train_path,299,299) x_test, y_test = load_data(test_path,299,299) model.fit_generator( train_datagen.flow(x_train, y_train, batch_size=batchSize), epochs = 500, validation_data = test_datagen.flow(x_test, y_test, batch_size=batchSize), verbose=1, callbacks=[reduce_lr, csv_logger, checkpointer] )

多い方のラベルを同じ枚数になるようにランダムに抽出してx_trainへ返すようにしました。こうすれば、epochのたびにall_img[0]ではランダムな画像が抽出され、集めた画像を無駄なく使えると思ったからです。しかしこれで上記のfit_generatorを回してみたところ、精度が50%の前後をウロウロしたまま全く学習しませんでした。私の想定以上の頻度でrandam関数が働いてしまっているのが原因だと思うのですが、どう直したらいいのか分からない状況です。

試したこと

imbalanced-learnも調べましたが、画像データに対して適用する方法が分かりませんでした。
randamではなく、毎回指定の画像を使ってアンダーサンプリングするようにしたらある程度学習が進んだので、学習枚数が足りなくなってしまったのが原因で学習できていないわけでもなさそうです。

補足情報(FW/ツールのバージョンなど)

kerasのバージョンは2.1.6です。

どうかよろしくお願い致します。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

tiitoi

2018/11/22 03:29

random.sample() は fit_generator() とどのように組み合わせて使っているのでしょうか?
kku6

2018/11/22 04:20

load_data内でrandam.sample()しています。fit_generator()内で何度もtrain_datagen.flow()が呼び出されるおかげか、x_trainの中身も何度も入れ替わるのは経験上分かったのですが、入れ替わりすぎているようです。。アンダーサンプリングのために、重み調整してる時からflow_from_directory()ではなくflow()を使っています。
tiitoi

2018/11/22 05:48 編集

追記のコードを見る限り、load_data() で x_train, y_train を作ったら、それを元に flow() でミニバッチを生成するので、エポックのたびにランダムにサンプリングは行われないように思いますが、どうでしょうか。 ちなみに少ないほうのデータ数は何枚ぐらいなのでしょうか?
kku6

2018/11/22 06:39

現在多い方が1800枚、少ない方が130枚です。ひとまずこの枚数で試したいです。そしてすみません、試しに手動でtrainの多い方の画像を130枚まで減らしてみたところ、学習が進まなくなりました。前に進んでいたのはハイパーパラメータが違ったためか、それとも見間違いだったか...。ランダムサンプリングが行われていないかもしれないです。もう少し一人で考えたいと思います。ご相談に乗っていただき本当にありがとうございました。
guest

回答1

0

ベストアンサー

現在多い方が1800枚、少ない方が130枚です。ひとまずこの枚数で試したいです

130枚は Deep Learning を行うには少なすぎます。
これでは収束しても汎化性能を出すのは難しいと思います。
Deep Learning で重要なのはデータ量なので、がんばって最低でも1000枚ぐらいは集めたほうがよいと思います。

投稿2018/11/22 06:48

tiitoi

総合スコア21954

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kku6

2018/12/03 02:27

枚数は題材に依存します。一般的に130枚が少なすぎる事は否定しませんが、明確な基準はないという認識です。 今回知りたいのはアンダーサンプリング方法だったので、また改めて必要でしたら質問致します。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問