物体検出の評価時にバウンディングボックスがでたらめに表示される

前提・実現したいこと

TensorflowでSSD_Kerasを使って自作画像データで物体検出をしようとしています。
学習させた重みを用いて評価したところ、バウンディングボックスが評価用画像をでたらめに埋め尽くしてしまいました。

これは何に問題があるのでしょうか。問題があるならどこをいじればいいのでしょうか。

過学習でしょうか？それとも学習させたデータに問題があるのでしょうか？
エラーは出ていませんし、train_lossもval_lossも適切に減少しているので、学習はできていると思うのですが…

大量のバウンディングボックスがでたらめに出てくる理由と解決策が知りたいです。

発生している問題・エラーメッセージ

評価時にバウンディングボックスがでたらめに表示されて画面を埋め尽くしてしまう

実際の画像↓

Q71

2019/12/03 12:12

SSD はやってないですが、Faster R-CNN では、大量のバウンディングボックスから、候補を絞るということをしています。それぞれのバウンディングボックスについて、「これが当たっていると思われるスコア」があり、そのスコアによって絞り込みを行います。それに相当する部分がありませんか？

退会済みユーザー

2019/12/04 01:09

すみませんが、各バウンディングボックスのスコアを算出して絞り込むコードがあるかどうか分かりませんでした。評価時バウンディングボックスを生成している部分のコードを載せますね。 preds = model.predict(inputs, batch_size=1, verbose=1) results = bbox_util.detection_out(preds) for i, img in enumerate(images): # Parse the outputs. det_label = results[i][:, 0] det_conf = results[i][:, 1] det_xmin = results[i][:, 2] det_ymin = results[i][:, 3] det_xmax = results[i][:, 4] det_ymax = results[i][:, 5] # Get detections with confidence higher than 0.6. top_indices = [i for i, conf in enumerate(det_conf) if conf >= 0.85] top_conf = det_conf[top_indices] top_label_indices = det_label[top_indices].tolist() top_xmin = det_xmin[top_indices] top_ymin = det_ymin[top_indices] top_xmax = det_xmax[top_indices] top_ymax = det_ymax[top_indices] colors = plt.cm.hsv(np.linspace(0, 1, NUM_CLASSES)).tolist() plt.imshow(img / 255.) currentAxis = plt.gca() for i in range(top_conf.shape[0]): xmin = int(round(top_xmin[i] * img.shape[1])) ymin = int(round(top_ymin[i] * img.shape[0])) xmax = int(round(top_xmax[i] * img.shape[1])) ymax = int(round(top_ymax[i] * img.shape[0])) score = top_conf[i] label = int(top_label_indices[i]) label_name = voc_classes[label - 1] display_txt = '{:0.2f}, {}'.format(score, label_name) coords = (xmin, ymin), xmax-xmin+1, ymax-ymin+1 color = colors[label] currentAxis.add_patch(plt.Rectangle(*coords, fill=False, edgecolor=color, linewidth=2)) currentAxis.text(xmin, ymin, display_txt, bbox={'facecolor':color, 'alpha':0.5}) plt.show()

Q71

2019/12/04 23:30

コメントしているじゃないですか。 > # Get detections with confidence higher than 0.6. コードは0.85に修正されていますが。そうすると、教師データがどんなものでしょうか。どれくらいの量のデータをどれくらい学習しましたか。その時の信頼性は？

退会済みユーザー

2019/12/05 01:18

教師データはOKクラスが97枚、NGクラスが101枚の計198枚です。バッチサイズ2で50エポック学習させました。学習終了時のlossが0.067、val_lossが0.19でした。また学習終了時に表示された画像では1.0の精度でNGを検出できていました。

Q71

2019/12/05 08:18

提示されている画像が「でたらめ」ということは、85%以上の確率でOK、NGというエリアは、全くOKでもNGでもない、という事ですか？私の所と比較すると、ロスが0.06というのは全然学習ができていません。1.0e-6はいかないと。学習に使った画像（教師画像）でも、同じ結果ですか？直前のコメントの言葉だと、分類問題のように思うのですが？適切な選択がされていますか？

退会済みユーザー

2019/12/05 09:06

>提示されている画像が「でたらめ」ということは、85%以上の確率でOK、NGというエリアは、全くOKでもNGでもない、という事ですか？ >直前のコメントの言葉だと、分類問題のように思うのですが？適切な選択がされていますか？締まっている(OK)ボルトと締まっていない(NG)ボルトを分類して検出する問題です。教師画像は1枚につき1つのボルトが中央にはっきりと映っている写真を選別して使いました。ボルト全体を囲むようにアノテーションしたので、質問に添付した画像で言うとNGのバウンディングボックスが中央のボルトを囲むように表示され、ボルトのない箇所に何も表示されていなければ成功だと考えています。 >私の所と比較すると、ロスが0.06というのは全然学習ができていません。1.0e-6はいかないと。学習に使った画像（教師画像）でも、同じ結果ですか？教師画像で評価させた場合を試したところ、OKとNGのバウンディングボックスが重なって表示されていたので添付した画像と同様の結果になりました。やはり学習ができていたと思っていたけれど全く十分ではなかったということなんでしょうか。

Q71

2019/12/05 10:00

ごめんなさい。同じような事をしているので、守秘義務に反しないようにアドバイスできる自信がありません。これ以上答えられそうにないです。学習ができているかどうかについては、先の通りです。あとできそうなアドバイスとしては、範囲は小さくした方がいいですよ。

退会済みユーザー

2019/12/06 00:07 編集

いえいえ、ありがとうございます。範囲というとアノテーションする範囲のことだと思うんですが、検出対象が複数写っていたり小さかったりする画像でも人の目で判断できるようなら、教師データとして使用して大丈夫でしょうか。教師データ用の画像を選別・加工(トリミングなど)する時に気をつけていることがあったらよろしければ参考までに教えてください。

Q71

2019/12/06 01:41

複数写っているものは可能です。というか、きちんとアノテートして下さい。小さすぎるものは、アノテートしなくても構いません。ただ、ドット数などできちんと区別はしないといけません。