質問編集履歴
2
実現したいことの欄にそもそも外れ値があると仮定して、NaN値を外れ値を含む平均で補完した場合に、正しく補完が行えていないことになり、最初っから外れ値を削除した方がどのみち効率がいいのでは?を追記
test
CHANGED
File without changes
|
test
CHANGED
@@ -10,7 +10,10 @@
|
|
10
10
|
の手順で記載されておりました。
|
11
11
|
|
12
12
|
|
13
|
-
しかし、データの散布図にプロットされている外れ値を見てふと思ったのですが、先に外れ値を除去してから、NaNを補完なり削除なりした方が性能が高いモデルになるのでは?
|
13
|
+
・しかし、データの散布図にプロットされている外れ値を見てふと思ったのですが、先に外れ値を除去してから、NaNを補完なり削除なりした方が性能が高いモデルになるのでは?
|
14
|
+
・そもそも外れ値があると仮定して、NaN値を外れ値を含む平均で補完した場合に、正しく補完が行えていないことになり、最初っから外れ値を削除した方がどのみち効率がいいのでは?
|
15
|
+
|
16
|
+
この2点から自分なりに二通り試し、線形回帰モデルの決定係数で比較を行ってみました。
|
14
17
|
|
15
18
|
1)外れ値を削除してから、NaNを中央値で補完
|
16
19
|
2)NaNを中央値で補完してから外れ値を削除
|
1
実現したいことの文章を直しました。
test
CHANGED
File without changes
|
test
CHANGED
@@ -10,7 +10,7 @@
|
|
10
10
|
の手順で記載されておりました。
|
11
11
|
|
12
12
|
|
13
|
-
|
13
|
+
しかし、データの散布図にプロットされている外れ値を見てふと思ったのですが、先に外れ値を除去してから、NaNを補完なり削除なりした方が性能が高いモデルになるのでは?と思い、自分なりに二通り試し、線形回帰モデルの決定係数で比較を行ってみました。
|
14
14
|
|
15
15
|
1)外れ値を削除してから、NaNを中央値で補完
|
16
16
|
2)NaNを中央値で補完してから外れ値を削除
|