編集履歴

質問編集履歴

誤字の修正

2018/11/22 04:16

投稿

taku_t

スコア47

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -150,11 +150,27 @@
 x_train, y_train = load_data(train_path,299,299)
+x_test, y_test = load_data(test_path,299,299)
+model.fit_generator(
+            train_datagen.flow(x_train, y_train, batch_size=batchSize),
+            epochs = 500,
+            validation_data = test_datagen.flow(x_test, y_test, batch_size=batchSize),
-#あとは一緒
+            verbose=1,
+            callbacks=[reduce_lr, csv_logger, checkpointer]
+            )
 ```
-のようにランダムに同じ枚数になるように揃えてx_trainへ返すようにしました。こうすれば、epochのたびにall_img[0]ではランダムな画像が抽出され、集めた画像を無駄なく使えると思ったからです。しかしこれで上記のfit_generatorを回してみたところ、精度が50%の前後をウロウロしたまま全く学習しませんでした。私の想定以上の頻度でrandam関数が働いてしまっているのが原因だと思うのですが、どう直したらいいのか分からない状況です。
+多い方のラベルを同じ枚数になるようにランダムに抽出してx_trainへ返すようにしました。こうすれば、epochのたびにall_img[0]ではランダムな画像が抽出され、集めた画像を無駄なく使えると思ったからです。しかしこれで上記のfit_generatorを回してみたところ、精度が50%の前後をウロウロしたまま全く学習しませんでした。私の想定以上の頻度でrandam関数が働いてしまっているのが原因だと思うのですが、どう直したらいいのか分からない状況です。

コードを端折らずに書きました。

2018/11/22 04:16

投稿

taku_t

スコア47

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -102,17 +102,59 @@
 私なりにアンダーサンプリングのコードを書いたのですがうまくいきませんでした。
-load_data関数内でクラス0とクラス1について、画像をそれぞれ別の配列(img0とimg1)にappendし、例えばimg0の方が枚数が多いなら
+load_data関数内でラベル0とラベル1について、画像をそれぞれ別の配列に入れ、多い方のデータをランダムに抽出して少ない方のデータに合わせるようにしました。ラベル0の方が多いなら下記の通りです。
 ```
-resample_img0 = np.array(random.sample(img0, len(img1)))
+def load_data(folderpath, img_width, img_height):
+    all_img = [[],[]]
+    all_cat = [[],[]]
+    i=0
+    labelpath = glob.glob(os.path.join(folderpath,"*")) #labelpath='Dataset/train/0'と'Dataset/train/1'
+    for label in labelpath:
+        files = glob.glob(os.path.join(label,"*"))
+        for file in files:
+            image = cv2.imread(file)
+            image = cv2.resize(image, (img_width, img_height))
+            cat = os.path.basename(os.path.dirname(file))  #ファイル名の'0'とか'1'をラベルにする。
+            all_img[i].append(image)
+            all_cat[i].append(cat)
+    resample_img0 = np.array(random.sample(all_img[0], len(all_img[1])))
+    resample_cat0 = np.array(random.sample(all_cat[0], len(all_cat[1]))) #配列の中身は全部0なので、どこをサンプリングしても結果は変わらない。なので適当にサンプリングしてOK。
-x = np.vstack((resample_img0, img1))
+    x = np.vstack((resample_img0, all_img[1]))
+    y = np.hstack((resample_cat0, all_cat[1]))
+    return (x,y)
+x_train, y_train = load_data(train_path,299,299)
+#あとは一緒
 ```
-のようにランダムに同じ枚数になるように揃えてx_trainへ返すようにしました。こうすれば、epochのたびにimg0ではランダムな画像が抽出され、集めた画像を無駄なく使えると思ったからです。しかしこれで上記のfit_generatorを回してみたところ、精度が50%の前後をウロウロしたまま全く学習しませんでした。私の想定以上の頻度でrandam関数が働いてしまっているのが原因だと思うのですが、どう直したらいいのか分からない状況です。
+のようにランダムに同じ枚数になるように揃えてx_trainへ返すようにしました。こうすれば、epochのたびにall_img[0]ではランダムな画像が抽出され、集めた画像を無駄なく使えると思ったからです。しかしこれで上記のfit_generatorを回してみたところ、精度が50%の前後をウロウロしたまま全く学習しませんでした。私の想定以上の頻度でrandam関数が働いてしまっているのが原因だと思うのですが、どう直したらいいのか分からない状況です。