[python]日別の合計を集計する方法

下記のような重複した日付のデータを日毎に集計をしたいです。
さらにそのデータでグラフ化し、データ分析をしたいです。

date 　 person
2020‐3‐11 1
2020‐3‐12 5
2020‐3‐13 7
2020‐3‐12 2
2020‐3‐11 3
↓
（集計結果）
2020‐3‐11　 4
2020‐3‐12 7
2020‐3‐13 7

実施・確認したこと
① クロス集計 →　集計データがテーブル化されてグラフ化できない
② 日別＋IDキーのDataFrame それぞれ作成し結合する
※下記途中までのコードです

date_df = pd.DataFrame(
pd.date_range('2020-03-11', periods=3, freq='D').date, columns=['date'])

②の方法が最良でしょうか？
データにはIDがなく、またその後のデータ分析の際にIDの順番が分析結果に
影響しないか不安で出来ればIDを振らずに集計出来ないかと考えています。

そのようなコーディングが可能であれば教えて頂きたいです。
よろしくお願いいたします

行動規範の内容に同意します

回答1件

ベストアンサー

データフレームのインデックスをDatetimeIndexにしてリサンプリングして下さい。
サンプルコードを示します。

python
1import pandas as pd
2import matplotlib.pyplot as plt
3import matplotlib.dates as mdates
4
5
6# 設問のデータフレーム
7df = pd.DataFrame(
8    {
9        "date": [
10            "2020-3-11",
11            "2020-3-12",
12            "2020-3-13",
13            "2020-3-12",
14            "2020-3-11",
15        ],
16        "person": [1, 5, 7, 2, 3],
17    }
18)
19
20
21# インデックスをDatetimeIndex型にする
22df.index = pd.DatetimeIndex(pd.to_datetime(df.date, format="%Y-%m-%d"))
23df.drop("date", axis=1, inplace=True)
24df_1day = df.resample("1D").sum()
25print(df_1day)
26
27# グラフ表示
28fig, ax = plt.subplots(1, 1, figsize=(12, 4))
29ax.xaxis.set_major_formatter(mdates.DateFormatter("%Y-%m-%d\n%H:%M"))
30plt.plot(df_1day.index, df_1day.person, linestyle="--", marker="o")
31plt.ylabel("Number of persons per day")
32plt.grid()
33plt.show()

実行結果

terminal
1            person
2date              
32020-03-11       4
42020-03-12       7
52020-03-13       7

投稿2020/06/22 14:36

編集2020/06/22 14:37

yymmt

総合スコア1615

mango55

2020/06/22 14:45

早々のお返事ありがとうございます。すみませんが初心者で教えてください。データですが、数か月分あるのですがデータフレームにするのは全ての月日、人数を明記するのでしょうか？

yymmt

2020/06/22 14:48

csvデータがあればpd.read_csv()を使って読み込めます。Excelで集計しているのであればpd.read_excel()を使います。

mango55

2020/06/22 22:18

教えてもらったとおりにしているつもりですが、エラーになります。どこが違うでしょうか？どうしても原因が分かりません。 df = pd.read_csv('C:/Users//Downloads/file.csv') # インデックスをDatetimeIndex型にする df.date = pd.DatetimeIndex(pd.to_datetime(df.date)) df.drop("date", axis=1, inplace=True) df_1day = df.resample("1D").sum() print(df_1day) # グラフ表示 fig, ax = plt.subplots(1, 1, figsize=(12, 4)) ax.xaxis.set_major_formatter(mdates.DateFormatter("%Y-%m-%d\n%H:%M")) plt.plot(df_1day.index, df_1day.patient, linestyle="--", marker="o") plt.ylabel("Number of patient per day") plt.grid() plt.show() ---------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-31-6b6cb5d51338> in <module> 5 6 # インデックスをDatetimeIndex型にする ----> 7 df.date = pd.DatetimeIndex(pd.to_datetime(df.date)) 8 df.drop("date", axis=1, inplace=True) 9 df_1day = df.resample("1D").sum() ~\Anaconda3\lib\site-packages\pandas\core\generic.py in __getattr__(self, name) 5065 if self._info_axis._can_hold_identifiers_and_holds_name(name): 5066 return self[name] -> 5067 return object.__getattribute__(self, name) 5068 5069 def __setattr__(self, name, value): AttributeError: 'DataFrame' object has no attribute 'date'