機械学習において、人数予想におけるアウトプットの形式は新規者か累積かどのように選べばいいのか？

前提・実現したいこと

データ分析初心者です。。。！

今回コロナウイルスに関するkaggleのコンペに参加してみたのですが、感染者数予想に関してどっちにすれば良いのか疑問点が出てきたので質問させていただきます。
https://www.kaggle.com/c/covid19-global-forecasting-week-4

データセットとしては、1月22日から4月10日までにおける様々な国の感染者数の情報があり,
その中にあるスペインの感染者数予想を行おうとしています。

指数関数で回帰させて予測しようとしているのですが、予測する数値を

一日あたりの新規感染者数
その日までの累積感染者数

どちらにするかによって少し処理や結果が変化するように思います。
予想を行うための目的とする変数はどのように選択すれば良いのでしょうか？

3/10-3/31までのデータを学習データとし、4/1-4/10を検証用データとして利用しています。
評価には4/1- 4/10において、正解データと予測したデータの決定係数を計算しています。

実際に両方を試して見た結果以下のようになりました。

累積感染者数をアウトプットに予測を行なった結果
決定係数: 0.878

一日あたりの新規感染者数をアウトプットとして予想し、その累計をとって表示
決定係数: 0.893

よろしくお願いいたします！

行動規範の内容に同意します

回答2件

それを考えるのがあなたの課題です。
新規感染者数と累積感染者数は相互に変換できるので実質的に1つの値です。
あなたは1つの値に対して
・新規感染者を指数関数で回帰
・累積感染者を指数関数で回帰
の2つの予想アルゴリズムを考えたのです。
「どちらがより正確に予想できるか」や「どちらがモデルとして現実に即しているか」などを考え、どちらかを選んでください。

投稿2020/04/30 00:59

ikadzuchi

総合スコア3047

kentokawai

2020/04/30 07:40

確かにおっしゃる通りですね。どうしなければいけないというルールがあるわけではなく、この部分の考察も含めて"いいモデル"が作られるかどうかですね。ありがとうございます！

行動規範の内容に同意します

ベストアンサー

目的変数は要求事項に沿って決定されるものです。よって、コンペなのであれば、予測対象の定義があると思うので、それをそのまま使うべきです。具体的な定義がなければ、コンペの主旨、目的から鑑みてより有用なものを目的変数にするといいと考えます。

感染のピークを予測することが必要なのであれば、新規発症者数が良さそうですし、一定期間後の全人口に対する発症者の割合を比較したいのであれば、累積数がいいでしょう。
個人的には、今後必要とされる医療体制を考えるためにも、ネットの累積発症者数が予測できるといいです。ネットというのは、新規発症者-治癒（または死亡）を累積するという意味です。こうすると、新規発症者がプラスであっても、治癒する人がそれより大きければ、累積人数は減少していきます。

投稿2020/04/29 20:05