前提・実現したいこと
Pythonを使って機械学習を勉強しております。
時系列予測に関して前処理の方法について躓いておりますので、
お知恵を貸していただければと考えております。
※確認はしましたが、類似課題があるようであればご指摘いただけますと幸いです。
発生している問題・エラーメッセージ
以下のような時系列データを用いて機械学習を行い、将来の目的変数を予測したいと考えています。
例えば1年間の時系列データを与えて、向こう1か月間の日付別・都道府県別・店舗別の目的変数を予測したいです。
|日付|都道府県|店舗名|目的変数|
|:--|:--|:--|
2017年12月1日 | 愛知県 | A | 1 |
2017年12月1日 | 愛知県 | B | 2 |
2017年12月2日 | 愛知県 | A | 5 |
2017年12月2日 | 愛知県 | B | 5 |
2017年12月3日 | 愛知県 | A | 8 |
2017年12月3日 | 愛知県 | B | 8 |
2017年12月1日 | 静岡県 | A | 2 |
2017年12月1日 | 静岡県 | B | 3 |
2017年12月2日 | 静岡県 | A | 4 |
2017年12月2日 | 静岡県 | B | 8 |
2017年12月3日 | 静岡県 | A | 1 |
2017年12月3日 | 静岡県 | B | 1 |
統計学的な手法(SARIMA等)やLSTMを使うことを想定しておりますが、
現状はどのような機械学習手法を使うかは決定しておりません。
試したこと
ちなみに前処理の方法として以下のような方法を自分で考えてはみましたが、
あまり効率の良いやり方とは思えておりません。
手法①自分の考えとしては店舗名をget_dummiesでダミー変数化し、都道府県別のモデルを作る。
手法②都道府県・店舗名を結合し一つのカテゴリ変数にした後にダミー変数化してモデルを作成する。
恐れ入りますが、お知恵を貸していただけますと幸いです。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。