質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.40%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

8160閲覧

[python]日別の合計を集計する方法

mango55

総合スコア22

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2020/06/22 14:01

編集2020/06/22 14:11

下記のような重複した日付のデータを日毎に集計をしたいです。
さらにそのデータでグラフ化し、データ分析をしたいです。

date   person
2020‐3‐11 1
2020‐3‐12 5
2020‐3‐13 7
2020‐3‐12 2
2020‐3‐11 3

(集計結果)
2020‐3‐11  4
2020‐3‐12 7
2020‐3‐13 7

実施・確認したこと
① クロス集計 → 集計データがテーブル化されてグラフ化できない
② 日別+IDキー のDataFrame それぞれ作成し結合する
※下記途中までのコードです

date_df = pd.DataFrame(
pd.date_range('2020-03-11', periods=3, freq='D').date, columns=['date'])

②の方法が最良でしょうか?
データにはIDがなく、またその後のデータ分析の際にIDの順番が分析結果に
影響しないか不安で出来ればIDを振らずに集計出来ないかと考えています。

そのようなコーディングが可能であれば教えて頂きたいです。
よろしくお願いいたします

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

データフレームのインデックスをDatetimeIndexにしてリサンプリングして下さい。
サンプルコードを示します。

python

1import pandas as pd 2import matplotlib.pyplot as plt 3import matplotlib.dates as mdates 4 5 6# 設問のデータフレーム 7df = pd.DataFrame( 8 { 9 "date": [ 10 "2020-3-11", 11 "2020-3-12", 12 "2020-3-13", 13 "2020-3-12", 14 "2020-3-11", 15 ], 16 "person": [1, 5, 7, 2, 3], 17 } 18) 19 20 21# インデックスをDatetimeIndex型にする 22df.index = pd.DatetimeIndex(pd.to_datetime(df.date, format="%Y-%m-%d")) 23df.drop("date", axis=1, inplace=True) 24df_1day = df.resample("1D").sum() 25print(df_1day) 26 27# グラフ表示 28fig, ax = plt.subplots(1, 1, figsize=(12, 4)) 29ax.xaxis.set_major_formatter(mdates.DateFormatter("%Y-%m-%d\n%H:%M")) 30plt.plot(df_1day.index, df_1day.person, linestyle="--", marker="o") 31plt.ylabel("Number of persons per day") 32plt.grid() 33plt.show()

実行結果

terminal

1 person 2date 32020-03-11 4 42020-03-12 7 52020-03-13 7

グラフ結果

投稿2020/06/22 14:36

編集2020/06/22 14:37
yymmt

総合スコア1615

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

mango55

2020/06/22 14:45

早々のお返事ありがとうございます。 すみませんが初心者で教えてください。 データですが、数か月分あるのですがデータフレームにするのは全ての月日、人数を明記するのでしょうか?
yymmt

2020/06/22 14:48

csvデータがあればpd.read_csv()を使って読み込めます。Excelで集計しているのであればpd.read_excel()を使います。
mango55

2020/06/22 22:18

教えてもらったとおりにしているつもりですが、エラーになります。 どこが違うでしょうか?どうしても原因が分かりません。 df = pd.read_csv('C:/Users//Downloads/file.csv') # インデックスをDatetimeIndex型にする df.date = pd.DatetimeIndex(pd.to_datetime(df.date)) df.drop("date", axis=1, inplace=True) df_1day = df.resample("1D").sum() print(df_1day) # グラフ表示 fig, ax = plt.subplots(1, 1, figsize=(12, 4)) ax.xaxis.set_major_formatter(mdates.DateFormatter("%Y-%m-%d\n%H:%M")) plt.plot(df_1day.index, df_1day.patient, linestyle="--", marker="o") plt.ylabel("Number of patient per day") plt.grid() plt.show() ---------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-31-6b6cb5d51338> in <module> 5 6 # インデックスをDatetimeIndex型にする ----> 7 df.date = pd.DatetimeIndex(pd.to_datetime(df.date)) 8 df.drop("date", axis=1, inplace=True) 9 df_1day = df.resample("1D").sum() ~\Anaconda3\lib\site-packages\pandas\core\generic.py in __getattr__(self, name) 5065 if self._info_axis._can_hold_identifiers_and_holds_name(name): 5066 return self[name] -> 5067 return object.__getattribute__(self, name) 5068 5069 def __setattr__(self, name, value): AttributeError: 'DataFrame' object has no attribute 'date'
yymmt

2020/06/22 22:47

列の名称が異なるのだと思います。print(df)等で確認して列名がある場合 df.date → df["日付の入っている列名"] として下さい。列名がない場合、3列目なら(0から数えて2列目) df.date → df.iloc[:, 2] と変えれば動くと思います。
mango55

2020/06/23 10:32

エラー解消されました。 早々のお返事本当にありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.40%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問