ご質問を「非線形な相関を持つ特徴量があった場合、どういう処理をするべきか」と解釈します。
ググるキーワードを「特徴量選択」としてください。特徴量選択の手法は線形相関を見ることだけではない、と理解いただけると思います。
例えば、「特徴量選択のまとめ」を読むと、特徴量選択は、Filter Method、Wrapper Method、Embedded Methodの大きく3種類に分類されることがわかります。そして、質問者様のケースでは、単純な相関までを見るFilter Methodでは(特徴量を減らすべきかを)見極められるか微妙ですが、実際のモデルに当てはめるWrapper Method、Embedded Methodでは見極められそうだとわかります。
追記(7/2 19:57)
なお、質問者様が示した例のような、「完全な」非線形な相関がある場合でも、特徴量を減らしてよいかは、モデルに依存します。モデルによっては、既存の特徴量の組み合わせから、比較的簡単な計算で導出される特徴量が加わるだけで、予測精度が改善される場合もあるからです。
例えば、有名なkaggleのtitanicでは、Sibsp(夫婦と兄弟の人数)とParch(親子の人数)をそのまま使うのではなく、それらを加算しただけのFamilySizeを使うことで、予測精度が改善されます。また、titanicを含む多くの問題において、特徴量のlogをとって非線形変換するのも、前処理として有用な技術です。よって、非線形に完全な相関があるからといって、無作為に片方の特徴量を削って良いとは限らないことが、理解できると思います。こういった場合でも、この回答前半でご紹介した方法にて、それなりにベターな特徴量の組み合わせを選択することが可能です。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2021/07/02 06:01