RMSEとMAEについて

Question

機械学習、回帰問題等で用いられるRMSEとMAEについてなんですが、ネット上の記事を見ていると、RMSEは**ルートの中身で二乗しているから**外れ値の影響を受けやすい、と書いてあるのですが、どちらかといえば、データ数であるNがルートの中に入っているのが原因では？と思うのですが、いかがでしょうか？

[参考](https://mathwords.net/rmsemae)ページ

Accepted Answer

最尤推定の観点からコメントします。
RMSEを最小化するということは誤差が正規分布していることを仮定した最尤推定と一致します。一方、MAEを最小化するということは誤差がラプラス分布に従っていると仮定した最尤推定と一致します。
このラプラス分布は、正規分布と比較して分布の裾野が広いため、外れ値の影響を受けにくい構造になっています。
試しに30個の正規分布から生成したデータに1個の外れ値を混ぜたものをもとに期待値の最尤推定を行うと、正規分布を仮定したケースであると真の値よりズレた結果になります。それに対し、ラプラス分布を仮定すると真を値に近似した結果が得られました。つまり、外れ値が含まれるデータをもとに作成したモデルを評価する場合は外れ値の影響を受けにくいラプラス分布仮定のMAEのほうが真の誤差に近似するということになります。

結論として、RMSEが外れ値の影響を受けやすいのは誤差が正規分布に依存している仮定のもとで推計しているからと考えます。

このあたりの詳しいことは以下が役立ちそうなので紹介します

https://funatsu-lab.github.io/open-course-ware/basic-theory/accuracy-index/

関連した質問