前提・実現したいこと
vottで作成した独自のアノテーション済み動画を使ってyolov3の学習をしたいです。
参考にした記事:YOLOv3でオリジナルの物体検知器作り方
発生している問題・エラーメッセージ
参考記事の通りに学習を実行したところ、しばらくは学習が進んでいますが、
バッチ回数993あたりからlossが急激に上昇し、以降はlossがinf、IOUがnanの状態が続きます。
このnan状態は学習が失敗している(学習の発散)と考えていいでしょうか?
また、このnan状態を解消するためにはどのパラメータを最適にすべきでしょうか?
以下学習中のログです。
bash
1Region 82 Avg IOU: 0.423967, Class: 0.991514, Obj: 0.025816, No Obj: 0.004533, .5R: 0.318182, .75R: 0.090909, count: 22 2Region 94 Avg IOU: 0.544058, Class: 0.986336, Obj: 0.024367, No Obj: 0.007804, .5R: 0.656250, .75R: 0.031250, count: 32 3Region 106 Avg IOU: -nan, Class: -nan, Obj: -nan, No Obj: 0.000000, .5R: -nan, .75R: -nan, count: 0 4803: 12.085871, 18.032167 avg, 0.003326 rate, 6.580604 seconds, 411136 images 5Loaded: 0.000168 seconds 6Region 82 Avg IOU: 0.566342, Class: 0.991700, Obj: 0.027970, No Obj: 0.005527, .5R: 0.684211, .75R: 0.052632, count: 19 7... 8... 9... 10Region 94 Avg IOU: 0.474061, Class: 0.987655, Obj: 0.000822, No Obj: 0.000356, .5R: 0.458333, .75R: 0.041667, count: 24 11Region 106 Avg IOU: 0.495081, Class: 0.779921, Obj: 0.000000, No Obj: 0.000002, .5R: 0.500000, .75R: 0.000000, count: 2 12993: 20273323673911296.000000, 2027332340547584.000000 avg, 0.007778 rate, 6.022081 seconds, 508416 images 13Loaded: 0.000185 seconds 14Region 82 Avg IOU: 0.000000, Class: 0.000000, Obj: 0.000000, No Obj: 0.000000, .5R: 0.000000, .75R: 0.000000, count: 13 15Region 82 Avg IOU: 0.000000, Class: 0.000000, Obj: 0.000000, No Obj: 0.000000, .5R: 0.000000, .75R: 0.000000, count: 24 16Region 82 Avg IOU: 0.000000, Class: 0.000000, Obj: 0.000000, No Obj: 0.000000, .5R: 0.000000, .75R: 0.000000, count: 18 17Region 82 Avg IOU: 0.000000, Class: 0.000000, Obj: 0.000000, No Obj: 0.000000, .5R: 0.000000, .75R: 0.000000, count: 15 18Region 82 Avg IOU: 0.000000, Class: 0.000000, Obj: 0.000000, No Obj: 0.000000, .5R: 0.000000, .75R: 0.000000, count: 18 19Region 94 Avg IOU: 0.000000, Class: 0.000000, Obj: 0.000000, No Obj: 0.000000, .5R: 0.000000, .75R: 0.000000, count: 25 20Region 94 Avg IOU: 0.000000, Class: 0.000000, Obj: 0.000000, No Obj: 0.000000, .5R: 0.000000, .75R: 0.000000, count: 34 21... 22... 23... 24Region 94 Avg IOU: 0.000000, Class: 0.000000, Obj: 0.000000, No Obj: 0.000000, .5R: 0.000000, .75R: 0.000000, count: 22 25Region 82 Avg IOU: 0.000000, Class: 0.000000, Obj: 0.000000, No Obj: 0.000000, .5R: 0.000000, .75R: 0.000000, count: 17 26Region 106 Avg IOU: 0.000000, Class: 0.000000, Obj: 0.000000, No Obj: 0.000000, .5R: 0.000000, .75R: 0.000000, count: 2 27Region 106 Avg IOU: 0.000000, Class: 0.000000, Obj: 0.000000, No Obj: 0.000000, .5R: 0.000000, .75R: 0.000000, count: 2 28Region 94 Avg IOU: 0.000000, Class: 0.000000, Obj: 0.000000, No Obj: 0.000000, .5R: 0.000000, .75R: 0.000000, count: 29 29Region 82 Avg IOU: 0.000000, Class: 0.000000, Obj: 0.000000, No Obj: 0.000000, .5R: 0.000000, .75R: 0.000000, count: 15 30Region 82 Avg IOU: 0.000000, Class: 0.000000, Obj: 0.000000, No Obj: 0.000000, .5R: 0.000000, .75R: 0.000000, count: 22 31Region 94 Avg IOU: 0.000000, Class: 0.000000, Obj: 0.000000, No Obj: 0.000000, .5R: 0.000000, .75R: 0.000000, count: 29 32Region 94 Avg IOU: 0.000000, Class: 0.000000, Obj: 0.000000, No Obj: 0.000000, .5R: 0.000000, .75R: 0.000000, count: 26 33Region 106 Avg IOU: 0.000000, Class: 0.000000, Obj: 0.000000, No Obj: 0.000000, .5R: 0.000000, .75R: 0.000000, count: 4 34Region 106 Avg IOU: 0.000000, Class: 0.000000, Obj: 0.000000, No Obj: 0.000000, .5R: 0.000000, .75R: 0.000000, count: 1 35Region 106 Avg IOU: -nan, Class: -nan, Obj: -nan, No Obj: 0.000000, .5R: -nan, .75R: -nan, count: 0 36994: inf, inf avg, 0.007810 rate, 5.969997 seconds, 508928 images 37Loaded: 0.000276 seconds 38Region 82 Avg IOU: nan, Class: 0.000000, Obj: 0.000000, No Obj: 0.000000, .5R: 0.000000, .75R: 0.000000, count: 23 39Region 82 Avg IOU: nan, Class: 0.000000, Obj: 0.000000, No Obj: 0.000000, .5R: 0.000000, .75R: 0.000000, count: 19 40Region 82 Avg IOU: nan, Class: 0.000000, Obj: 0.000000, No Obj: 0.000000, .5R: 0.000000, .75R: 0.000000, count: 23 41Region 94 Avg IOU: nan, Class: 0.000000, Obj: 0.000000, No Obj: 0.000000, .5R: 0.000000, .75R: 0.000000, count: 26 42Region 94 Avg IOU: nan, Class: 0.000000, Obj: 0.000000, No Obj: 0.000000, .5R: 0.000000, .75R: 0.000000, count: 27 43Region 94 Avg IOU: nan, Class: 0.000000, Obj: 0.000000, No Obj: 0.000000, .5R: 0.000000, .75R: 0.000000, count: 30 44Region 82 Avg IOU: nan, Class: 0.000000, Obj: 0.000000, No Obj: 0.000000, .5R: 0.000000, .75R: 0.000000, count: 14 45Region 82 Avg IOU: nan, Class: 0.000000, Obj: 0.000000, No Obj: 0.000000, .5R: 0.000000, .75R: 0.000000, count: 20 46
該当のソースコード
試したこと
cfgファイル設定を変更しました。
- batch = 128 → 64
- subdivisions = 32 → 16
変更しても同じ状態です。
補足情報(FW/ツールのバージョンなど)
- 学習実行ハード:DGX
- フレームワーク:Darknet
- アノテーションツール:vott
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。