色々調べていると特徴量が高次元で疎な場合はrandom forestなどの木系モデルはうまくいかないことが多く、NNなどを検討した方が良いということを知ったのですが、理由がよくわかりません。
というのも、密でも疎でも、その特徴がそのタスクに有用ならばその特徴で分岐するし、そうじゃないなら分岐しないのでは、と感じているのですが、何か誤解してますでしょうか?
具体的に言えば、例えば100000行のデータがあって、ある特徴量のうち、100行のみが値を持ちそれ以外は0とします。このような場合でも、仮にこの100行の目的変数が十分にその他と異なれば、問題なく分岐されますよね。
(なお、cardinarityが低い特徴が連続値などに比べて重要度が低くなる傾向があることについては理解しています)
*もしこれについて説明している論文、サイトなどご存知なら教えて頂けると幸いです。自分が探した範囲では見つけられませんでした。
これだけだと厳しいので、出典を教えて下さい。調べた範囲ではpythonではじめる機械学習にはそういう記述があるようですが、本文を確認していないのでよくわかりません(近日中に確認してみます)
ブログですが
https://nozma.github.io/ml_with_python_note/3-1-%E3%82%A2%E3%83%AB%E3%82%B4%E3%83%AA%E3%82%BA%E3%83%A05-%E6%B1%BA%E5%AE%9A%E6%9C%A8%E3%81%AE%E3%82%A2%E3%83%B3%E3%82%B5%E3%83%B3%E3%83%96%E3%83%AB%E6%B3%95.htmlの3.1.1.3 長所、短所、パラメータのところとか。
https://futurismo.biz/archives/6736のランダムフォレストの項のところ。
とかですね。
回答2件
あなたの回答
tips
プレビュー