重回帰分析の勉強をしているのですが、
それのスコア向上のアプローチの一つとして、残差プロットをしてみました。
結果は以下の画像のようになりました。
残差プロットをしたは良いのですが、その後どうアプローチしたらいいのかがわかりません。
Kaggleのデータを使っているので、
testデータの教師データはないので、以下のコードのように、
学習済みモデルにtrainXを入れたもの(trainY_pred)と、
trainYを比較しています。
python
1trainY_pred = model.predict(trainX) 2plt.scatter(trainY_pred, trainY_pred - trainY, c = 'blue', marker = 'o', label = 'Train Data')
そもそも、残差プロットの結果の評価の方法がわからないのですが、
僕がこの結果を見た感じだと、まぁまぁ良い感じにバラけているけど、右上に大分大きく外れたものがあるので、ココに何かしらのアプローチをかけるのが良いのかなと感じています。
まぁまぁ良い感じにバラけているとはいいましたが、
±100,000もあるのでそうでもないのでしょうか。
お聞きしたいことは、そもそもこの結果は良い感じなのかそうでもないのか、というのと、
この後、この結果からさらにスコアを上げるためにはどういったアプローチが考えられるか
の2点です。
よろしくお願いします。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。