前提・実現したいこと
データ分析初心者です。。。!
今回コロナウイルスに関するkaggleのコンペに参加してみたのですが、感染者数予想に関してどっちにすれば良いのか疑問点が出てきたので質問させていただきます。
https://www.kaggle.com/c/covid19-global-forecasting-week-4
データセットとしては、1月22日から4月10日までにおける様々な国の感染者数の情報があり,
その中にあるスペインの感染者数予想を行おうとしています。
指数関数で回帰させて予測しようとしているのですが、予測する数値を
- 一日あたりの新規感染者数
- その日までの累積感染者数
どちらにするかによって少し処理や結果が変化するように思います。
予想を行うための目的とする変数はどのように選択すれば良いのでしょうか?
3/10-3/31までのデータを学習データとし、4/1-4/10を検証用データとして利用しています。
評価には4/1- 4/10において、正解データと予測したデータの決定係数を計算しています。
実際に両方を試して見た結果以下のようになりました。
累積感染者数をアウトプットに予測を行なった結果
決定係数: 0.878
一日あたりの新規感染者数をアウトプットとして予想し、その累計をとって表示
決定係数: 0.893
よろしくお願いいたします!
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2020/04/30 07:40