現在、三次元点群データ同士の位置合わせのためにとあるdeeplearningエンジンを検討しています。
データの位置合わせに利用するには、pretrainedモデルではなく目的に合うデータで学習する必要があるということで、学習をし直しているところです。
ところが、途中から下記に示したようなエラーが頻繁に出力されるようになりました。
2020-02-13 01:03:18.777192: E tensorflow/core/kernels/check_numerics_op.cc:185] abnormal_detected_host @0x206618d00 = {1, 0} Numerical error in gradient for regression/Rt_hat/bias:0 2020-02-13 01:03:18.777538: E tensorflow/core/kernels/check_numerics_op.cc:185] abnormal_detected_host @0x20661fa00 = {1, 0} Numerical error in gradient for regression/Rt_hat/w_linear:0 2020-02-13 01:03:18.778232: E tensorflow/core/kernels/check_numerics_op.cc:185] abnormal_detected_host @0x20661df00 = {1, 0} Numerical error in gradient for regression/linear_1/bias:0 2020-02-13 01:03:18.778582: E tensorflow/core/kernels/check_numerics_op.cc:185] abnormal_detected_host @0x20661e000 = {1, 0} Numerical error in gradient for regression/linear_1/w_linear:0 2020-02-13 01:03:18.779453: E tensorflow/core/kernels/check_numerics_op.cc:185] abnormal_detected_host @0x20661e500 = {1, 0} Numerical error in gradient for regression/conv2d/bias:0 2020-02-13 01:03:18.780016: E tensorflow/core/kernels/check_numerics_op.cc:185] abnormal_detected_host @0x20661e600 = {1, 0} Numerical error in gradient for regression/conv2d/w:0
これは恐らく、勾配消失問題だと思われます。
しかし、学習は続行しているようです。
このまま学習を続けても果たして利用できる重みが得られるかどうかわかりません。ここで学習を止めてしまった方がいいでしょうか。それともこのまま学習を続けていてもいいでしょうか。
ちなみに、このエンジンは自動的に外れ値を検出して計算に利用しないようなしくみがついているようです。
何でもいいですから、何かわかる方、情報を頂ければ幸いです。
環境は次のとおりです。
・ubuntu 16.04
・python 3.6
・tensorflow-gpu 1.12.0
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。