実現したいこと
当方scikit-learn及び機械学習を始めたての初心者です。
scikit-learnで、一種類の説明変数しかなく、かつ説明変数の数が1組のデータごとに異なるデータセットでそのまま学習(教師あり、線形、重回帰分析?)を行いたいと思っています。これが可能なのか、また、可能であれば実現方法を教えていただきたいです。
具体的には、競馬の任意の週の全てのレースの『走破タイムと平均タイムの差』(説明変数)を私が見て目的変数(その週ごとのタイムの傾向)を入力したデータセットで学習を行い、自動でその週のタイムの傾向を導きたいと思っています。
『平均タイムと走破タイムの差』という一種類の説明変数のカテゴリーのみがあり、週ごとに開催されるレース数が異なるため、説明変数の数が異なる、という具合なわけです。
一応仮に表的な表記をすると
##### レース1の平均差 レース2平均差 レース3平均差 週ごとのタイム傾向
5月第一週 -1.5 -1.6 +-0.0 A(本当は数値が入る)
5月第二週 -2.5 -3.0 存在しない B (本当は数値が入る)
5月第三週 -1.7 存在しない 存在しない C (本当は数値が入る)
このようになり、このようなデータで学習を行いたいわけです。
(ちなみに本当は1週の中で多ければレース数は15、少なければ8程度です。)
週ごとのレース数のバラツキが結構ありますし、欠損値を仮入力したりすると、感覚とズレた予測モデルになりそうなので、できればレース数が違う状態でそのまま処理したいんですが、どうすればよいでしょうか?
回答よろしくお願いします。
前提
ここに質問の内容を詳しく書いてください。
(例)
TypeScriptで●●なシステムを作っています。
■■な機能を実装中に以下のエラーメッセージが発生しました。
発生している問題・エラーメッセージ
エラーメッセージ
該当のソースコード
ソースコード
試したこと
ここに問題に対して試したことを記載してください。
補足情報(FW/ツールのバージョンなど)
とりあえず時系列モデルについて調べてみました。ですが、どの時系列モデルの記事もCSVファイル読み込みの部分で、上記の『一応仮に表的な表記をすると』の部分のような形で、かつ欠損がないようなCSVファイルを読み込んでおり、今一番気になっているCSVファイルを読み込む際に、欠損を補正せずにどうCSVファイルを成型して読み込むか?という部分がわかりませんでした。
(できれば表形式で)ここを教えていただけるとありがたいです。すみませんがお願いします。
あと時系列モデルを使用する場合scikit-learnじゃなくて全然大丈夫です。うまくやれるならなんでもいいです。
あとこれは私の伝え方が悪かったかもしれないため、もしかしたら伝わってないかもしれないなと思ったので一応追記させていただきますが、やりたいことは、学習したモデルに、特定の土、日曜日、土日、などの範囲のみでの全レースの平均差を与え、その範囲のみでの総合的なタイム傾向を一数値として導く、って感じです。未来だけでなく過去の土日の範囲についても自動で導かせようと思っています。
