Python SIRモデル　感染者予測

Question

### 前提
Pythonで新型コロナウイルス感染者の予測をおこなっています。
プログラム初学者のためSIRモデルを用いて過去のデータで数式に当てはめています。

### 実現したいこと
最小二乗法を用いて実際の感染者のデータにフィットするように曲線を描きたいと考えています。

### 発生している問題・エラーメッセージ
厚生労働省がサイトで出している新規感染者のデータを抽出しPythonでファイルの読み込みをしてプロットまではできていますが、フィットさせようとしてる曲線が全く立ち上がらず一直線になってしまっています。画像がうまくアップロードできないので後付けでそちらの画像をアップロードします。
![イメージ説明](https://ddjkaamml8q8x.cloudfront.net/questions/2022-10-31/66fc32ca-9f60-4a2a-b670-18e1a957d4e4.png)
青いプロットが今回の実際のデータとなっており、下の真っ直ぐに伸びている直線が最小二乗法によって導出した曲線となっています。
```
エラーメッセージは出ておりません
```

### 該当のソースコード

```Python
import numpy as np
import matplotlib.pyplot as plt
from scipy.integrate import odeint
from scipy import optimize
import csv

# loading csv-file
f = open("./COVID_1st_wave1.csv", "r", encoding="UTF-8", errors="", newline="" )
fcsv = csv.reader(f, delimiter=",", doublequote=True, lineterminator="
", quotechar='"', skipinitialspace=True)

next(f) # skip to the header of the csv-file

cases = [] 
for row in fcsv:
    cases.append(int(row[1]))

Tokyo = 13999568 # the population of Tokyo in 2020
normalized_cases = np.array(cases, dtype = float)/Tokyo
days = len(cases)
t = np.arange(days)
# initial values
I0 = normalized_cases[0]; S0 = 1.0 - I0; R0 = 0.0

# SIR differential equation
# S = SIR[0], I = SIR[1], R = SIR[2]
def SIReq(SIR, t, beta, gamma):
    dSdt = -beta*SIR[0]*SIR[1]
    dIdt = beta*SIR[0]*SIR[1] - gamma*SIR[1]
    dRdt = gamma*SIR[1]

return [dSdt, dIdt, dRdt]

def I(t, beta, gamma):
    SEIRlist = odeint(SIReq, (S0, I0, R0), t, args = (beta, gamma))
    return SEIRlist[:,1]

optparams, cov = optimize.curve_fit(I, t, normalized_cases)
print('R0=',optparams[0]/optparams[1])
fitted = I(t, *optparams)

plt.scatter(t, cases)
plt.plot(t, fitted*Tokyo)
plt.xlabel('the number of days from 2020/2/18')
plt.ylabel('the number of confirmed cases in Tokyo')
plt.show()
f.close() # close the csv-file
```

### 試したこと
今回は2月18日から5月23日までの範囲で実際のデータにフィットさせようとしましたがうまくいかなかったのですが、1月24日から5月23日までの範囲ではうまくいきました。
また以前も少し似たような質問をしたことがあり、データの範囲の設定の際に必ず新規感染者が1人はいるところから始めないといけないことがわかっています。
よろしくおねがいいたします。

### 補足情報（FW/ツールのバージョンなど）

ここにより詳細な情報を記載してください。

Accepted Answer

以前[他の方の回答](https://teratail.com/questions/4c0801dgxwz3q4#reply-24znx4yfpakzk2)で申し上げたことがあるのですが，そのような結果でも上記データを目的関数でfittingした結果で間違いありません．

最小二乗法で得られる解において，[与えた初期状態](https://docs.scipy.org/doc/scipy/reference/generated/scipy.optimize.curve_fit.html)`p0`
> Initial guess for the parameters (length N). If None, then the initial values will all be 1
が悪かったため，局所的最適解を得ています．

現状，「初期値が全て`1`で初期化された局所的最適解は望んだ関数を描かない」という情報が得られたことになるので，これ以外の初期値で，試行すると良いでしょう．

もし自身で当たっていると思しき`beta, gamma`を知っているなら，その値を`p0`に入れてやってください．運が良ければ最適解にシフトするものと思われます．

値が何もわからないのであれば，引数の数だけランダムに初期値を生成して与えると良いでしょう．

初期値が全て`1`でフィットする関数なんてたかが知れており，[正弦波ですらフィットしない](https://teratail.com/questions/4c0801dgxwz3q4)ソルバを扱う中で，解に近い値を入れざるを得ないのは当然の事態と思います．

Answer

> 1月24日から5月23日までの範囲ではうまくいきました。

```python
f = open("./COVID_1st_wave1.csv", "r", encoding="UTF-8", errors="", newline="" )
fcsv = csv.reader(f, delimiter=",", doublequote=True, lineterminator="
", quotechar='"', skipinitialspace=True)
next(f) # skip to the header of the csv-file
```
↓ 変更
```python
import pandas as pd
url = 'https://covid19.mhlw.go.jp/public/opendata/newly_confirmed_cases_daily.csv'
df = pd.read_csv(url, parse_dates=['Date'])
df_Tokyo = df.loc[df['Date'].between('2020-01-24', '2020-05-23'), ['Date', 'Tokyo']]
fcsv = np.array(df_Tokyo)
```

として、
[厚生労働省が発表しているオープンデータ](https://covid19.mhlw.go.jp/public/opendata/newly_confirmed_cases_daily.csv)
から2020-01-24〜2020-05-23のTokyoのデータを抽出して、質問のコードのまま「optimize.curve_fit」の「初期値」を設定しなかった場合の結果

![イメージ説明](https://ddjkaamml8q8x.cloudfront.net/questions/2022-11-01/a169d6b3-ce5a-4c84-87ad-9cf77571a1f9.png)

同じデータで、

```python
optparams, cov = optimize.curve_fit(I, t, normalized_cases)
```
↓ 変更
```python
p0 = [20, 20]
optparams, cov = optimize.curve_fit(I, t, normalized_cases, p0)
```
として、「optimize.curve_fit」の「初期値」を「p0 = [20, 20]」に設定した場合の結果

![イメージ説明](https://ddjkaamml8q8x.cloudfront.net/questions/2022-11-01/b865c791-75f1-450d-b969-cf7f48d4331b.png)

同じデータで、「optimize.curve_fit」の「初期値」を「p0 = [15, 15]」に設定した場合の結果

![イメージ説明](https://ddjkaamml8q8x.cloudfront.net/questions/2022-11-01/2b3ffd5a-775b-44c6-908a-3e8eb513d3dc.png)

初期値にかなり依存してますよね

Answer

ちゃんとfittingできていると思います