データセット同士の比較方法（カラム数が100以上）

教師あり機械学習（回帰問題）で予測モデリングを構築しています。このとき、予測精度の悪いデータセットと予測精度のよいデータセットの違いを比較して精度悪化の原因を追求し、精度向上を図りたいと思っています。

この時、精度のよいデータセットと悪いデータセットの特徴を比較をする方法はありますでしょうか？

変数が数個であれば、予測精度でグループ分けして、各々ヒストグラムを描くことが可能ですが、カラム数が数百〜1000以上あり、全カラムを比較することは容易ではありません。

こういうワードで調べるといいよ、というキーワードでも大変助かります。

toast-uz

2021/02/20 10:31

お話が一般論すぎて、何を質問されているのかが分かりません。データセットの違いとは何ですか？測定時期の違い？測定地点の違い？測定機器の違い？特徴量選択の違い？そもそも何を予測しようとしているのですか？精度がよい悪いとはどういうことですか？機械学習というのは個別のエンジニアリング性が強い分野ですので、コードの提示が無い中で、かなり一般論な質問をされても、回答がされにくいように思います。

meg_

2021/02/20 11:26

> 予測精度の悪いデータセットと予測精度のよいデータセット良い悪いはモデルであってデータではないのでは？質問者さんが知りたいことはもしかしてfeature importanceでしょうか？

aokikenichi

2021/03/07 06:48

toast-uz, meg_ さんとほぼ同じ意見です。前提条件、目的が不明なので回答しづらいです。データセットの違いをみるとのことであれば実務上では100以上は確かに扱いづらいので、主成分分析等で重要要素に絞る feature importance等で重要なものに絞る目的変数と説明変数の相関等でフィルタがけする等が考えられますもし、Kaggle等のコンペで上位になりたいというようなことであれば、その「容易ではありません」を泥臭く実施することも必要です。記事ソースを忘れてしまったので恐縮ですが5万行のデータの可視化ツールを作って1件ずつ目で見て独特な特徴を見出した、という例もあります。