お世話になっております。
ディープラーニングに関する質問になります。コーディングに関する質問ではないため、本来タブーなのかもしれませんがよろしくお願いいたします。
CNNなどのモデルで中間層や出力層で用いられる活性化関数についてですが、活性化関数を採用することのモチベーションは何なのでしょうか。
例えば、CNNであれば中間層でランプ関数を採用し、出力層はソフトマックスで、、、などあると思いますが、どういった観点からこのような構造になっているのか知りたいと思っています。自分で調べた限りでは、上手く呑み込めませんでした。情報をお持ちの方がいれば是非よろしくお願いいたします。