質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.59%

kerasで画像データをアンダーサンプリングしたい

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 1,150

kku6

score 42

 前提・実現したいこと

正例:負例=1:20くらいの画像データがあります。この正例を正しく識別できる学習モデルを作りたいと考えています。まずは重み調整をしてみたのですが期待したほどの成果が出ませんでした。次にアンダーサンプリングを試したいと思ったのですが、やり方が分からないという状況です。どうかアドバイスをいただけませんでしょうか。
画像データは

Dataset┬train┬0┬a0001.jpg
      │     │ ├a0002.jpg
       │     │ └... 
       │     └1┬b0001.jpg
       │       └b0002.jpg
       └test─┬0┬a0010.jpg
             │ └a0011.jpg1┬b0010.jpg
               └b0011.jpg


のように入っています。標準的だと思います。今はこのデータに対し

train_path = 'Dataset/train'
test_path = 'Dataset/test'

def load_data(folderpath, img_width, img_height):
    labelpath = glob.glob(os.path.join(folderpath,"*")) #labelpath='Dataset/train/0''Dataset/train/1'
    for label in labelpath:
        files = glob.glob(os.path.join(label,"*"))
        for file in files:
            image = cv2.imread(file)
            image = cv2.resize(image, (img_width, img_height))
            cat = os.path.basename(os.path.dirname(file))  #ファイル名の'0'とか'1'をラベルにする。
            x.append(image)
            y.append(cat)
    x = np.array(x)
    y = np.array(y)
    return (x,y)

x_train, y_train = load_data(train_path,299,299)
x_test, y_test = load_data(test_path,299,299)


で画像の配列とラベルの配列を取り出し、2つのクラスの重み(class_weights)を計算したら

model.fit_generator(
            train_datagen.flow(x_train, y_train, batch_size=batchSize),
            class_weight = class_weights,
            epochs = 500,
            validation_data = test_datagen.flow(x_test, y_test, batch_size=batchSize),
            verbose=1,
            callbacks=[reduce_lr, csv_logger, checkpointer]
            )    


で回しています。このclass_weightsを取っ払い、代わりにアンダーサンプリングで学習させてみたいと考えています。

 発生している問題・エラーメッセージ

私なりにアンダーサンプリングのコードを書いたのですがうまくいきませんでした。
load_data関数内でラベル0とラベル1について、画像をそれぞれ別の配列に入れ、多い方のデータをランダムに抽出して少ない方のデータに合わせるようにしました。ラベル0の方が多いなら下記の通りです。

def load_data(folderpath, img_width, img_height):
    all_img = [[],[]]
    all_cat = [[],[]]
    i=0
    labelpath = glob.glob(os.path.join(folderpath,"*")) #labelpath='Dataset/train/0''Dataset/train/1'

    for label in labelpath:
        files = glob.glob(os.path.join(label,"*"))
        for file in files:
            image = cv2.imread(file)
            image = cv2.resize(image, (img_width, img_height))
            cat = os.path.basename(os.path.dirname(file))  #ファイル名の'0'とか'1'をラベルにする。
            all_img[i].append(image)
            all_cat[i].append(cat)

    resample_img0 = np.array(random.sample(all_img[0], len(all_img[1])))
    resample_cat0 = np.array(random.sample(all_cat[0], len(all_cat[1]))) #配列の中身は全部0なので、どこをサンプリングしても結果は変わらない。なので適当にサンプリングしてOK。
    x = np.vstack((resample_img0, all_img[1]))
    y = np.hstack((resample_cat0, all_cat[1]))
    return (x,y)

x_train, y_train = load_data(train_path,299,299)
x_test, y_test = load_data(test_path,299,299)

model.fit_generator(
            train_datagen.flow(x_train, y_train, batch_size=batchSize),
            epochs = 500,
            validation_data = test_datagen.flow(x_test, y_test, batch_size=batchSize),
            verbose=1,
            callbacks=[reduce_lr, csv_logger, checkpointer]
            )    


多い方のラベルを同じ枚数になるようにランダムに抽出してx_trainへ返すようにしました。こうすれば、epochのたびにall_img[0]ではランダムな画像が抽出され、集めた画像を無駄なく使えると思ったからです。しかしこれで上記のfit_generatorを回してみたところ、精度が50%の前後をウロウロしたまま全く学習しませんでした。私の想定以上の頻度でrandam関数が働いてしまっているのが原因だと思うのですが、どう直したらいいのか分からない状況です。

 試したこと

imbalanced-learnも調べましたが、画像データに対して適用する方法が分かりませんでした。
randamではなく、毎回指定の画像を使ってアンダーサンプリングするようにしたらある程度学習が進んだので、学習枚数が足りなくなってしまったのが原因で学習できていないわけでもなさそうです。

 補足情報(FW/ツールのバージョンなど)

kerasのバージョンは2.1.6です。

どうかよろしくお願い致します。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • tiitoi

    2018/11/22 12:29

    random.sample() は fit_generator() とどのように組み合わせて使っているのでしょうか?

    キャンセル

  • kku6

    2018/11/22 13:20

    load_data内でrandam.sample()しています。fit_generator()内で何度もtrain_datagen.flow()が呼び出されるおかげか、x_trainの中身も何度も入れ替わるのは経験上分かったのですが、入れ替わりすぎているようです。。アンダーサンプリングのために、重み調整してる時からflow_from_directory()ではなくflow()を使っています。

    キャンセル

  • tiitoi

    2018/11/22 14:47 編集

    追記のコードを見る限り、load_data() で x_train, y_train を作ったら、それを元に flow() でミニバッチを生成するので、エポックのたびにランダムにサンプリングは行われないように思いますが、どうでしょうか。
    ちなみに少ないほうのデータ数は何枚ぐらいなのでしょうか?

    キャンセル

  • kku6

    2018/11/22 15:39

    現在多い方が1800枚、少ない方が130枚です。ひとまずこの枚数で試したいです。そしてすみません、試しに手動でtrainの多い方の画像を130枚まで減らしてみたところ、学習が進まなくなりました。前に進んでいたのはハイパーパラメータが違ったためか、それとも見間違いだったか...。ランダムサンプリングが行われていないかもしれないです。もう少し一人で考えたいと思います。ご相談に乗っていただき本当にありがとうございました。

    キャンセル

回答 1

checkベストアンサー

0

現在多い方が1800枚、少ない方が130枚です。ひとまずこの枚数で試したいです

130枚は Deep Learning を行うには少なすぎます。
これでは収束しても汎化性能を出すのは難しいと思います。
Deep Learning で重要なのはデータ量なので、がんばって最低でも1000枚ぐらいは集めたほうがよいと思います。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/12/03 11:27

    枚数は題材に依存します。一般的に130枚が少なすぎる事は否定しませんが、明確な基準はないという認識です。
    今回知りたいのはアンダーサンプリング方法だったので、また改めて必要でしたら質問致します。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.59%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る