質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
データ構造

データ構造とは、データの集まりをコンピュータの中で効果的に扱うために、一定の形式に系統立てて格納する形式を指します。(配列/連想配列/木構造など)

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

2回答

1104閲覧

機械学習において、人数予想におけるアウトプットの形式は新規者か累積かどのように選べばいいのか?

kentokawai

総合スコア3

データ構造

データ構造とは、データの集まりをコンピュータの中で効果的に扱うために、一定の形式に系統立てて格納する形式を指します。(配列/連想配列/木構造など)

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2020/04/29 12:27

前提・実現したいこと

データ分析初心者です。。。!

今回コロナウイルスに関するkaggleのコンペに参加してみたのですが、感染者数予想に関してどっちにすれば良いのか疑問点が出てきたので質問させていただきます。
https://www.kaggle.com/c/covid19-global-forecasting-week-4

データセットとしては、1月22日から4月10日までにおける様々な国の感染者数の情報があり,
その中にあるスペインの感染者数予想を行おうとしています。

指数関数で回帰させて予測しようとしているのですが、予測する数値を

  • 一日あたりの新規感染者数
  • その日までの累積感染者数

どちらにするかによって少し処理や結果が変化するように思います。
予想を行うための目的とする変数はどのように選択すれば良いのでしょうか?

3/10-3/31までのデータを学習データとし、4/1-4/10を検証用データとして利用しています。
評価には4/1- 4/10において、正解データと予測したデータの決定係数を計算しています。

実際に両方を試して見た結果以下のようになりました。

累積感染者数をアウトプットに予測を行なった結果
決定係数: 0.878
イメージ説明

一日あたりの新規感染者数をアウトプットとして予想し、その累計をとって表示
決定係数: 0.893
イメージ説明

よろしくお願いいたします!

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

それを考えるのがあなたの課題です。
新規感染者数と累積感染者数は相互に変換できるので実質的に1つの値です。
あなたは1つの値に対して
・新規感染者を指数関数で回帰
・累積感染者を指数関数で回帰
の2つの予想アルゴリズムを考えたのです。
「どちらがより正確に予想できるか」や「どちらがモデルとして現実に即しているか」などを考え、どちらかを選んでください。

投稿2020/04/30 00:59

ikadzuchi

総合スコア3047

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kentokawai

2020/04/30 07:40

確かにおっしゃる通りですね。 どうしなければいけないというルールがあるわけではなく、この部分の考察も含めて"いいモデル"が作られるかどうかですね。 ありがとうございます!
guest

0

ベストアンサー

目的変数は要求事項に沿って決定されるものです。よって、コンペなのであれば、予測対象の定義があると思うので、それをそのまま使うべきです。具体的な定義がなければ、コンペの主旨、目的から鑑みてより有用なものを目的変数にするといいと考えます。

感染のピークを予測することが必要なのであれば、新規発症者数が良さそうですし、一定期間後の全人口に対する発症者の割合を比較したいのであれば、累積数がいいでしょう。
個人的には、今後必要とされる医療体制を考えるためにも、ネットの累積発症者数が予測できるといいです。ネットというのは、新規発症者-治癒(または死亡)を累積するという意味です。こうすると、新規発症者がプラスであっても、治癒する人がそれより大きければ、累積人数は減少していきます。

投稿2020/04/29 20:05

R.Shigemori

総合スコア3376

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kentokawai

2020/04/30 07:41

コンペの趣旨から考えて累積にしてみようかと思います。 ご丁寧に考え方から今回の対応例までご教授いただきありがとうございます!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問