1つ目の質問について
ResNetを使った学習によって勾配消失が解消できるという原理がいまいち理解できないでいます。
原論文 Deep Residual Learning for Image Recognition を参照してください。
ResNet が勾配消失問題は言及されているものの、それを解決するために ResNet を開発したとは一言も書かれていません。ResNet で取り組んだ問題は「degradation 問題」と言われるものです。
In this paper, we address the degradation problem by
introducing a deep residual learning framework.
訳: この論文では、残差学習の仕組みを導入することで劣化問題に取り組みました。
Is learning better networks as easy as stacking more layers?
An obstacle to answering this question was the notorious problem of vanishing/exploding gradients [1, 9], which hamper convergence from the beginning. This problem, however, has been largely addressed by normalized initialization [23, 9, 37, 13] and intermediate normalization layers
[16], which enable networks with tens of layers to start converging for stochastic gradient descent (SGD) with backpropagation [22].
層を深くすることにより生じる問題として「勾配消失問題」「劣化 (degradation) 問題」の2つが挙げられており、勾配消失問題に関しては、ResNet が作られた時点でこの問題は広く研究されており、初期化方法や正規化によりほぼ解決していると書かれています。
When deeper networks are able to start converging, a
degradation problem has been exposed: with the network
depth increasing, accuracy gets saturated (which might be
unsurprising) and then degrades rapidly.
もう1つの「劣化問題」とは、勾配消失が起こらず学習できるが、層が深くすると却って精度が劣化してしまう問題と書かれています。
層を深くすれば、パラメータが増えるので、少なくとも層が浅いモデルより表現力が増えるので精度が悪化することはないはずなのに、実際はなってしまう。
degradation is not caused by overfitting
We argue that this optimization difficulty is unlikely to
be caused by vanishing gradients
(「学習誤差の問題なので過学習は関係ない」、「逆伝搬時のデルタのノルムを確認することで勾配消失が原因ではない」ことも確認されています。)
ResNet の著者はこの問題の原因を「恒等写像を学習するのが難しいのが原因で、shortcut を加えれば、問題が簡単になり学習しやすくなるのではないか」と推測し、実際、実験により効果が確かめられたというのがこの論文の趣旨です。
Deep Learning - ResNet の仕組みについて
2つ目の質問について
上記の質問と少し内容は異なるのですが、ResNetはCNN以外にも使われるのですか?
基本的には CNN でしか使われていないです。
(CNN 以外 (例えば、全結合層のみのモデルなど) で何十層も深くすることはないので)
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。