XGBoostを用いた時系列データ予測における特徴量エンジニアリングについて

前提

機械学習初学者です。
時系列性を考慮した回帰問題の勉強のため、中国で収集されたデータを用いてPM2.5の濃度を環境データから予測する課題に取り組んでいます。
【与えられたデータ】
中国北京市順義区で収集されたデータ。収集期間は2013/3/1~2016/2/29で収集間隔は1時間です。

年
月
日
時
PM2.5濃度（μg/m^3）
SO2濃度（μg/m^3）
NO2濃度（μg/m^3）
CO濃度（μg/m^3）
O3濃度（μg/m^3）
気温（℃）
気圧（hPa）
露点温度（℃）
降水量（mm）
風向
風速（m/s）

行ったこと

・2013/3/1～2015/2/28を訓練データ、2105/3/1～2016/2/29をテストデータに分割し、訓練データに対してのみ欠損値補完を行いました。（テストデータには極力干渉しないほうが良いと考えたため）

・これらのデータに対し、XGBoostを用いて学習しました。（参考にしたサイト：https://www.salesanalytics.co.jp/datascience/datascience102/）

・optunaを使ってXGBoostのパラメータ探索を行いました。

質問したいこと

特徴量重要度をグラフ化してみた結果以下のようになりました。
※clusterは気温(temp)、気圧(pres)、露点温度(dewp)をクラスタリングした特徴量です。
※temp_diffは気温の一次階差で(現在の気温)-(一時間前の気温)の計算結果です。
※woyはは年始からの経過週です。

また、与えられたデータに含まれる特徴量のヒートマップを以下に示します。

以上二点の画像を踏まえて4つの質問があります。

①特徴量重要度において値の低い風向(wind_dire)、気温の一次階差(temp_diff)、風速(wd)を削除しようと考えているんですが特徴量重要度が低いことを理由に特徴量を減らして良いのかどうかについて。

②特徴量重要度においてCO一強状態になっていますがこれに対策を講じたほうが良いのかどうかについて。COの特徴量が欠損した場合や外れ値であった場合に精度が落ちるのではないかなどと危惧しています。

③ヒートマップに示された特徴量どうしの相関係数をもとに特徴量を取捨選択しても良いのかどうかについて。相関係数は二つの変数が正規分布に従うという仮定のもと計算しているものだと私は認識しています。COとtempのQQプロットを示すと、

となっており、特徴量の分布が正規分布ではなさそうです。このような場合のヒートマップの相関係数を信用していいのかどうかについて知りたいです。

④精度向上について。
精度向上についてのアドバイスが欲しいです。
例）
「そもそもXGBoostより○○のほうが良さそう」
「欠損値補完では線形補完ではなく○○のほうが良さそう」
「○○のクラスタリング特徴量が良さそう」
「○○という記述統計量を追加してもいいかもしれない」
等でお願いします。

meg_

2023/01/03 09:40

①についてはやってみて精度が上がれば削除すれば良いと思います。

行動規範の内容に同意します

回答1件

ベストアンサー

①については元々のモデルの精度が高いのであれば、やってみて精度が上がれば削除すれば良いと思います。
②については外れ値の処理等は事前処理として実施すべきと考えます。
③については相関関係が因果関係を必ずしも示さないことを考慮する必要があるかと思います。
データが正規分布でないときの手法もあるようなのでご確認ください。
特徴量選択（feature selection）方法３選〜Python
④については、時系列データの予測では出来るだけ直近のデータを使用するのが望ましいですね。季節性がある場合はそれを考慮する必要もあるでしょう。

投稿2023/01/03 09:50

編集2023/01/03 09:55

meg_

総合スコア11027