実現したいこと
時系列データにおいて、ラグ特徴量を作成して、予測を行いたい。
前提
初心者です。kaggleのStore Sales - Time Series Forecastingに取り組んでいます。
日付に対応した売上高の予測をするという内容です。
精度向上のために、訓練データにおけるsales(売上高、目的変数)のラグ特徴量を作成して、テストデータに対する予測を行いたいです。
しかし、テストデータにはsales列がないため、テストデータに対するラグ特徴量を作成することができません。そうすると、訓練データとテストデータの間でカラム数が異なり、予測ができないのではないかと考えました。
このような場合、テストデータに対して、どのような操作を行えばよいでしょうか。(訓練データに対するラグ特徴量の作成はできます)
ラグ特徴量は必ず目的変数でとらなければならないというのはありませんが
どうしても欲しいのであれば,テストデータだけで目的変数を予測できるモデルを作ってラグ特徴を埋めることは可能かと思います.まぁこの操作が高精度で叶うならラグ特徴なんて要らないんですけど
回答ありがとうございます。
上の例でいうと、無理してsalesのラグを取るのではなく、onpromotionなどの訓練データとテストデータに共通する変数のラグを取ると作業が楽になるということで合っているでしょうか?
そうです.
さきほど今回のコンペの特徴を調べたところ,訓練データの範囲から15日後のデータがテストデータになっているので,ラグ特徴を使って訓練データの範囲にあるt-nからテストデータの範囲にあるtの目的変数を追加する,これの繰り返してラグ特徴を作りながら予測することも可能であることがわかりました.これには予測のずれが乗っかって演算されてテストデータの後方ほど精度が悪くなる欠点がありますので,無理してsalesのラグを取る必要は無いです.
分かりました!
ありがとうございます。
あなたの回答
tips
プレビュー

