前提・実現したいこと
ある顧客データ(約1500件)を活用し、自社製品を買ってくれる/買ってくれない(=目的変数)について分類をしたいため、ランダムフォレストで分析を行っています。
顧客データのうち、学習用データ(8割)でモデルを作成し、テスト用データ(2割)で評価しています。
最終的に、顧客データ(約1500件)に対して買ってくれる見込みのある顧客なのか、そうでないのか、予測をpredict関数にて付与したいと考えていますが下記問題が発生しております。(分析ツールはRを使用)
発生している問題・エラーメッセージ
学習用データ(8割)でモデル作成後、テストデータにて評価したところ、Accuraryは80%以上、Recallは70%という結果となりました。
そこで、全データで予測を付与し評価してみると、Accuraryは95%以上、Recallは94%となってしまいます。
そもそも学習データに予測を付与するのは誤りなのでしょうか。
試したこと
ランダムフォレストについて調査したところ、「学習データに対して予測を付与すると、元々の説明変数の値を返す」であったり、「学習モデルの精度はほぼ100%」という情報があるため、学習用データに対して予測を付与するのができないということになります。
決定木やロジステック回帰、SVMなどは、学習データに予測確率を付与できるのですが(誤った認識できたらご指摘ください)、ランダムフォレストに比べ精度が低いためランダムフォレストで実現したいと考えております。
学習データに予測を付与しているのはそもそも誤っているのか、等を含めてご教授いただきたく存じます。
よろしくお願いいたします。
回答1件
あなたの回答
tips
プレビュー