質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.37%
XGBoost

XGBoostは、アンサンブル学習と決定木を組み合わせた手法です。弱学習器の構築時に、以前構築された弱学習器の結果を用いて弱学習器を構築。高度な汎化能力を持ち、勾配ブースティングとも呼ばれています。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

統計

統計は、集団現象を数量で把握することです。また、調査で得られた性質や傾向を数量的に表したデータのことをいいます。

Q&A

解決済

1回答

1928閲覧

XGBoostを用いた時系列データ予測における特徴量エンジニアリングについて

ruki0529

総合スコア2

XGBoost

XGBoostは、アンサンブル学習と決定木を組み合わせた手法です。弱学習器の構築時に、以前構築された弱学習器の結果を用いて弱学習器を構築。高度な汎化能力を持ち、勾配ブースティングとも呼ばれています。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

統計

統計は、集団現象を数量で把握することです。また、調査で得られた性質や傾向を数量的に表したデータのことをいいます。

0グッド

0クリップ

投稿2023/01/03 08:57

前提

機械学習初学者です。
時系列性を考慮した回帰問題の勉強のため、中国で収集されたデータを用いてPM2.5の濃度を環境データから予測する課題に取り組んでいます。
【与えられたデータ】
中国北京市順義区で収集されたデータ。収集期間は2013/3/1~2016/2/29で収集間隔は1時間です。

  • PM2.5濃度(μg/m^3)
  • SO2濃度(μg/m^3)
  • NO2濃度(μg/m^3)
  • CO濃度(μg/m^3)
  • O3濃度(μg/m^3)
  • 気温(℃)
  • 気圧(hPa)
  • 露点温度(℃)
  • 降水量(mm)
  • 風向
  • 風速(m/s)

行ったこと

・2013/3/1~2015/2/28を訓練データ、2105/3/1~2016/2/29をテストデータに分割し、訓練データに対してのみ欠損値補完を行いました。(テストデータには極力干渉しないほうが良いと考えたため)

・これらのデータに対し、XGBoostを用いて学習しました。(参考にしたサイト:https://www.salesanalytics.co.jp/datascience/datascience102/)

・optunaを使ってXGBoostのパラメータ探索を行いました。

質問したいこと

特徴量重要度をグラフ化してみた結果以下のようになりました。
※clusterは気温(temp)、気圧(pres)、露点温度(dewp)をクラスタリングした特徴量です。
※temp_diffは気温の一次階差で(現在の気温)-(一時間前の気温)の計算結果です。
※woyはは年始からの経過週です。
イメージ説明
また、与えられたデータに含まれる特徴量のヒートマップを以下に示します。
イメージ説明

以上二点の画像を踏まえて4つの質問があります。

①特徴量重要度において値の低い風向(wind_dire)、気温の一次階差(temp_diff)、風速(wd)を削除しようと考えているんですが特徴量重要度が低いことを理由に特徴量を減らして良いのかどうかについて。

②特徴量重要度においてCO一強状態になっていますがこれに対策を講じたほうが良いのかどうかについて。COの特徴量が欠損した場合や外れ値であった場合に精度が落ちるのではないかなどと危惧しています。

③ヒートマップに示された特徴量どうしの相関係数をもとに特徴量を取捨選択しても良いのかどうかについて。相関係数は二つの変数が正規分布に従うという仮定のもと計算しているものだと私は認識しています。COとtempのQQプロットを示すと、
イメージ説明
イメージ説明
となっており、特徴量の分布が正規分布ではなさそうです。このような場合のヒートマップの相関係数を信用していいのかどうかについて知りたいです。

④精度向上について。
精度向上についてのアドバイスが欲しいです。
例)
「そもそもXGBoostより○○のほうが良さそう」
「欠損値補完では線形補完ではなく○○のほうが良さそう」
「○○のクラスタリング特徴量が良さそう」
「○○という記述統計量を追加してもいいかもしれない」
等でお願いします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

meg_

2023/01/03 09:40

①についてはやってみて精度が上がれば削除すれば良いと思います。
guest

回答1

0

ベストアンサー

①については元々のモデルの精度が高いのであれば、やってみて精度が上がれば削除すれば良いと思います。
②については外れ値の処理等は事前処理として実施すべきと考えます。
③については相関関係が因果関係を必ずしも示さないことを考慮する必要があるかと思います。
データが正規分布でないときの手法もあるようなのでご確認ください。
特徴量選択(feature selection)方法3選〜Python
④については、時系列データの予測では出来るだけ直近のデータを使用するのが望ましいですね。季節性がある場合はそれを考慮する必要もあるでしょう。

投稿2023/01/03 09:50

編集2023/01/03 09:55
meg_

総合スコア10718

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.37%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問