実現したいこと
R2,MAE,RMSEを使用し、モデル精度を比較するための条件を正しく理解する。
発生している問題・分からないこと
以下のWebページの記載内容について正しく理解したいです。
https://keita-blog.com/data_science/regression-caution
「これらのモデル精度指標で比較できるのは、全く同じデータセットで作ったモデル同士のみ、ということです。つまり、ネストしたモデル間同士であれば決定係数が大きい方のモデルがデータに対して当てはまりが良いモデルであると単純に言うことができます。
一方で、全く異なるデータセットを使っている、あるいはデータセットAがあるとして、データセットAのすべてのデータを使ってつくったモデルとデータセットAの一部だけを使ってつくったモデルを上記の精度指標で対等に比較することは出来ません。」という記載があると思います。
ここで、異常値を削除する前処理を行う処理を実装する場合を考えます。
上記の内容によればデータセットAのすべてを使用し学習した場合と、データセットのAの異常値を含むレコードを削除したデータセットで学習した場合では決定係数やrmseなどの指標を用いて精度を比較することはできないということになると思うのですが、この理解はあっていますでしょうか?
回答される方は、まずこの理解が正しいか誤っているかどうかについての言及。
続いてその理由を述べていただけると幸いです。
---私の理解が正しいと仮定した場合の追加質問---
異常値を削除したことに意味があるのかどうか評価指標を見て判断することもあると思うのですが、
このような場合はどのような評価指標を見ればよいのでしょうか?
該当のソースコード
なし
試したこと・調べたこと
- teratailやGoogle等で検索した
- ソースコードを自分なりに変更した
- 知人に聞いた
- その他
上記の詳細・結果
調査をいたしましたが、解決しませんでした。
補足
特になし
回答1件
あなたの回答
tips
プレビュー