前提・実現したいこと
正例:負例=1:20くらいの画像データがあります。この正例を正しく識別できる学習モデルを作りたいと考えています。まずは重み調整をしてみたのですが期待したほどの成果が出ませんでした。次にアンダーサンプリングを試したいと思ったのですが、やり方が分からないという状況です。どうかアドバイスをいただけませんでしょうか。
画像データは
Dataset┬train┬0┬a0001.jpg │ │ ├a0002.jpg │ │ └... │ └1┬b0001.jpg │ └b0002.jpg └test─┬0┬a0010.jpg │ └a0011.jpg └1┬b0010.jpg └b0011.jpg
のように入っています。標準的だと思います。今はこのデータに対し
train_path = 'Dataset/train' test_path = 'Dataset/test' def load_data(folderpath, img_width, img_height): labelpath = glob.glob(os.path.join(folderpath,"*")) #labelpath='Dataset/train/0'と'Dataset/train/1' for label in labelpath: files = glob.glob(os.path.join(label,"*")) for file in files: image = cv2.imread(file) image = cv2.resize(image, (img_width, img_height)) cat = os.path.basename(os.path.dirname(file)) #ファイル名の'0'とか'1'をラベルにする。 x.append(image) y.append(cat) x = np.array(x) y = np.array(y) return (x,y) x_train, y_train = load_data(train_path,299,299) x_test, y_test = load_data(test_path,299,299)
で画像の配列とラベルの配列を取り出し、2つのクラスの重み(class_weights)を計算したら
model.fit_generator( train_datagen.flow(x_train, y_train, batch_size=batchSize), class_weight = class_weights, epochs = 500, validation_data = test_datagen.flow(x_test, y_test, batch_size=batchSize), verbose=1, callbacks=[reduce_lr, csv_logger, checkpointer] )
で回しています。このclass_weightsを取っ払い、代わりにアンダーサンプリングで学習させてみたいと考えています。
発生している問題・エラーメッセージ
私なりにアンダーサンプリングのコードを書いたのですがうまくいきませんでした。
load_data関数内でラベル0とラベル1について、画像をそれぞれ別の配列に入れ、多い方のデータをランダムに抽出して少ない方のデータに合わせるようにしました。ラベル0の方が多いなら下記の通りです。
def load_data(folderpath, img_width, img_height): all_img = [[],[]] all_cat = [[],[]] i=0 labelpath = glob.glob(os.path.join(folderpath,"*")) #labelpath='Dataset/train/0'と'Dataset/train/1' for label in labelpath: files = glob.glob(os.path.join(label,"*")) for file in files: image = cv2.imread(file) image = cv2.resize(image, (img_width, img_height)) cat = os.path.basename(os.path.dirname(file)) #ファイル名の'0'とか'1'をラベルにする。 all_img[i].append(image) all_cat[i].append(cat) resample_img0 = np.array(random.sample(all_img[0], len(all_img[1]))) resample_cat0 = np.array(random.sample(all_cat[0], len(all_cat[1]))) #配列の中身は全部0なので、どこをサンプリングしても結果は変わらない。なので適当にサンプリングしてOK。 x = np.vstack((resample_img0, all_img[1])) y = np.hstack((resample_cat0, all_cat[1])) return (x,y) x_train, y_train = load_data(train_path,299,299) x_test, y_test = load_data(test_path,299,299) model.fit_generator( train_datagen.flow(x_train, y_train, batch_size=batchSize), epochs = 500, validation_data = test_datagen.flow(x_test, y_test, batch_size=batchSize), verbose=1, callbacks=[reduce_lr, csv_logger, checkpointer] )
多い方のラベルを同じ枚数になるようにランダムに抽出してx_trainへ返すようにしました。こうすれば、epochのたびにall_img[0]ではランダムな画像が抽出され、集めた画像を無駄なく使えると思ったからです。しかしこれで上記のfit_generatorを回してみたところ、精度が50%の前後をウロウロしたまま全く学習しませんでした。私の想定以上の頻度でrandam関数が働いてしまっているのが原因だと思うのですが、どう直したらいいのか分からない状況です。
試したこと
imbalanced-learnも調べましたが、画像データに対して適用する方法が分かりませんでした。
randamではなく、毎回指定の画像を使ってアンダーサンプリングするようにしたらある程度学習が進んだので、学習枚数が足りなくなってしまったのが原因で学習できていないわけでもなさそうです。
補足情報(FW/ツールのバージョンなど)
kerasのバージョンは2.1.6です。
どうかよろしくお願い致します。
回答1件
あなたの回答
tips
プレビュー