ResNetが劣化問題を解決する仕組みについて伺いたいです。
論文や、解説のサイトを見て自分なりに解釈したのですが、それが正しいか不安なので間違い等ありましたらご指摘をお願い致します。
ある程度深い層ではそれなりの精度がすでに得られているため、入力と出力はほとんど恒等関数の状態
→その恒等関数の状態を保ちつつ、更に学習を行って精度を向上させるのは困難(これが劣化問題の原因)
→ショートカットを与えることによって、恒等関数を保つこと専用のルートをつくる。それにより本ルートは学習に専念できる。
→最後に学習した分と、恒等関数分を足し合わせる
抽象的な表現になってしまいましたが、このような解釈でよろしいでしょうか。
また、機械学習を学ぶ上で参考にした書籍に、ResNetは勾配消失問題を解決すると書かれてありました。しかし、論文には勾配消失問題はBatch Normalization等で殆ど解決済みであるとされており、他の質問者様も同じ解答を得られていました。
書籍には、ショートカット構造をとることで、逆伝播時に勾配をそのまま流すことができるので意味ある情報を届けることができると書かれております。
実際は層を深くするとBatch Normalizationでは勾配消失問題を解決しきれていないのでしょうか。そして、ResNetがそれを解決しているのでしょうか。
長文で申し訳ありませんが、どなたかご教授下さい。
あなたの回答
tips
プレビュー