現在機械学習モデルを作成し、競馬予想することを目指しています。
使うデータはTargetというソフトを利用して、過去5年分のレース結果をCSV出力したものを利用予定です。
最終的には予想したい週の出馬表についてデータをCSV出力し、作成したモデルに食わせることを検討しています。
現在、元データの前処理や学習を終えてスコアによる評価までは終えています。
しかし、最後に出馬表データをモデルに食わせるところで躓いてしまいました。
発生しているエラーはこちらです。
ValueError: Number of features of the model must match the input. Model n_features_ is 14000 and input n_features is 915
色々調べる中でこのエラー自体は「学習させたデータと予想したいデータの列数があってないですよー!」という意味だと理解しました。
よくよく考えてみると
・種牡馬名
・開催地
などのカテゴリ変数をダミー変数化していることを思い出しました。
なので例えば開催地だと
・学習データ
→東京、新潟、函館などの全開催地をダミー変数の列として作成している
・予想したいデータ
→東京なら東京のみなので、開催地の列は1列のみ
という事象が発生していると推測しています。
この問題を解決するには予想したい出馬表のデータに前処理を行い、学習データと同様の列を準備すればいいのでは?というとこまでは考えが至りましたが、肝心の手段がわかりません(一応ネットで調べてはみましたがいい事例は見つかりませんでした。)
そこで有識者の皆様に教えていただきたいです!よろしくお願いします!