kerasで画像データをアンダーサンプリングしたい

前提・実現したいこと

正例：負例=1:20くらいの画像データがあります。この正例を正しく識別できる学習モデルを作りたいと考えています。まずは重み調整をしてみたのですが期待したほどの成果が出ませんでした。次にアンダーサンプリングを試したいと思ったのですが、やり方が分からないという状況です。どうかアドバイスをいただけませんでしょうか。
画像データは

Dataset┬train┬0┬a0001.jpg
 　    │     │ ├a0002.jpg
       │     │ └... 
       │     └1┬b0001.jpg
       │       └b0002.jpg
       └test─┬0┬a0010.jpg
             │ └a0011.jpg
             └1┬b0010.jpg
               └b0011.jpg

のように入っています。標準的だと思います。今はこのデータに対し

train_path = 'Dataset/train'
test_path = 'Dataset/test'

def load_data(folderpath, img_width, img_height):
    labelpath = glob.glob(os.path.join(folderpath,"*")) #labelpath='Dataset/train/0'と'Dataset/train/1'
    for label in labelpath:
        files = glob.glob(os.path.join(label,"*"))
        for file in files:
            image = cv2.imread(file)
            image = cv2.resize(image, (img_width, img_height))
            cat = os.path.basename(os.path.dirname(file))  #ファイル名の'0'とか'1'をラベルにする。
            x.append(image)
            y.append(cat)
    x = np.array(x)
    y = np.array(y)
    return (x,y)

x_train, y_train = load_data(train_path,299,299)
x_test, y_test = load_data(test_path,299,299)

で画像の配列とラベルの配列を取り出し、2つのクラスの重み(class_weights)を計算したら

model.fit_generator(
            train_datagen.flow(x_train, y_train, batch_size=batchSize),
            class_weight = class_weights,
            epochs = 500,
            validation_data = test_datagen.flow(x_test, y_test, batch_size=batchSize),
            verbose=1,
            callbacks=[reduce_lr, csv_logger, checkpointer]
            )

で回しています。このclass_weightsを取っ払い、代わりにアンダーサンプリングで学習させてみたいと考えています。

発生している問題・エラーメッセージ

私なりにアンダーサンプリングのコードを書いたのですがうまくいきませんでした。
load_data関数内でラベル0とラベル1について、画像をそれぞれ別の配列に入れ、多い方のデータをランダムに抽出して少ない方のデータに合わせるようにしました。ラベル0の方が多いなら下記の通りです。

def load_data(folderpath, img_width, img_height):
    all_img = [[],[]]
    all_cat = [[],[]]
    i=0
    labelpath = glob.glob(os.path.join(folderpath,"*")) #labelpath='Dataset/train/0'と'Dataset/train/1'

    for label in labelpath:
        files = glob.glob(os.path.join(label,"*"))
        for file in files:
            image = cv2.imread(file)
            image = cv2.resize(image, (img_width, img_height))
            cat = os.path.basename(os.path.dirname(file))  #ファイル名の'0'とか'1'をラベルにする。
            all_img[i].append(image)
            all_cat[i].append(cat)

    resample_img0 = np.array(random.sample(all_img[0], len(all_img[1])))
    resample_cat0 = np.array(random.sample(all_cat[0], len(all_cat[1]))) #配列の中身は全部0なので、どこをサンプリングしても結果は変わらない。なので適当にサンプリングしてOK。
    x = np.vstack((resample_img0, all_img[1]))
    y = np.hstack((resample_cat0, all_cat[1]))
    return (x,y)

x_train, y_train = load_data(train_path,299,299)
x_test, y_test = load_data(test_path,299,299)

model.fit_generator(
            train_datagen.flow(x_train, y_train, batch_size=batchSize),
            epochs = 500,
            validation_data = test_datagen.flow(x_test, y_test, batch_size=batchSize),
            verbose=1,
            callbacks=[reduce_lr, csv_logger, checkpointer]
            )

多い方のラベルを同じ枚数になるようにランダムに抽出してx_trainへ返すようにしました。こうすれば、epochのたびにall_img[0]ではランダムな画像が抽出され、集めた画像を無駄なく使えると思ったからです。しかしこれで上記のfit_generatorを回してみたところ、精度が50%の前後をウロウロしたまま全く学習しませんでした。私の想定以上の頻度でrandam関数が働いてしまっているのが原因だと思うのですが、どう直したらいいのか分からない状況です。

試したこと

imbalanced-learnも調べましたが、画像データに対して適用する方法が分かりませんでした。
randamではなく、毎回指定の画像を使ってアンダーサンプリングするようにしたらある程度学習が進んだので、学習枚数が足りなくなってしまったのが原因で学習できていないわけでもなさそうです。

補足情報（FW/ツールのバージョンなど）

kerasのバージョンは2.1.6です。

どうかよろしくお願い致します。

tiitoi

2018/11/22 03:29

random.sample() は fit_generator() とどのように組み合わせて使っているのでしょうか？

taku_t

2018/11/22 04:20

load_data内でrandam.sample()しています。fit_generator()内で何度もtrain_datagen.flow()が呼び出されるおかげか、x_trainの中身も何度も入れ替わるのは経験上分かったのですが、入れ替わりすぎているようです。。アンダーサンプリングのために、重み調整してる時からflow_from_directory()ではなくflow()を使っています。

tiitoi

2018/11/22 05:48 編集

追記のコードを見る限り、load_data() で x_train, y_train を作ったら、それを元に flow() でミニバッチを生成するので、エポックのたびにランダムにサンプリングは行われないように思いますが、どうでしょうか。ちなみに少ないほうのデータ数は何枚ぐらいなのでしょうか？

taku_t

2018/11/22 06:39

現在多い方が1800枚、少ない方が130枚です。ひとまずこの枚数で試したいです。そしてすみません、試しに手動でtrainの多い方の画像を130枚まで減らしてみたところ、学習が進まなくなりました。前に進んでいたのはハイパーパラメータが違ったためか、それとも見間違いだったか...。ランダムサンプリングが行われていないかもしれないです。もう少し一人で考えたいと思います。ご相談に乗っていただき本当にありがとうございました。