質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

2回答

1145閲覧

pandas crosstab を使った場合の日付ラベルの間隔を変更したい

waku_nagoya

総合スコア200

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2019/05/30 07:55

環境

Python 3.6.8
pandas 0.24.1

実現したいこと

Python Pandas で crosstab を使いクロス集計したデータをグラフ表示した場合、日付ラベルを月単位にしたいです。
今回のサンプルではデータ数が少ないため問題ありませが、データ数が増えると日付ラベルが多すぎて日付が見えなくなってしまうため。月単位、もしくはもっと間隔を開けたいです。

実際のデータを使用すると以下のようになってしまいます。
イメージ説明

サンプルデータ

tera.csv

csv

1日時,グループ,ユーザー 22019/06/07 09:37:11,ほにゃ部,太郎 32019/06/07 09:37:50,らら部,花子 42019/06/07 10:52:02,ほげ部,一郎 52019/06/07 14:40:34,らら部,花子 62019/06/07 17:07:56,ほげ部,二郎 72019/06/18 09:34:52,らら部,桃子 82019/06/18 10:48:39,ほげ部,一郎 92019/06/18 10:48:40,ほにゃ部,次郎 102019/06/18 19:16:25,ほげ部,一郎 112019/07/09 08:47:47,らら部,花子 122019/07/09 08:58:13,ほげ部,一郎 132019/07/09 09:29:06,ほにゃ部,次郎 142019/07/09 09:59:46,らら部,花子 152019/08/12 08:28:09,ほげ部,二郎 162019/08/12 08:28:14,ほにゃ部,次郎 172019/08/12 09:50:17,ほげ部,一郎 182019/08/12 10:02:07,らら部,花子 192019/09/13 09:13:09,ほげ部,一郎 202019/09/13 09:30:54,ほげ部,二郎 212019/09/13 09:58:32,らら部,花子 222019/09/13 10:04:44,らら部,桃子 232019/09/13 10:06:13,らら部,花子 242019/09/13 10:52:41,らら部,桃子 252019/09/13 11:06:59,ほげ部,一郎 262019/09/14 06:18:13,ほげ部,二郎 272019/09/14 06:18:35,ほにゃ部,次郎 282019/10/14 06:19:29,ほげ部,二郎 292019/11/14 12:43:31,らら部,花子 302019/11/15 09:30:00,らら部,桃子

# 現在のサンプルソース

python

1import pandas as pd 2import matplotlib.pyplot as plt 3 4df = pd.read_csv('tera1.csv', usecols=['日時','グループ','ユーザー']) 5df['日付'] = df['日時'].str.split(n=0, expand=True)[0] 6 7xt = pd.crosstab(df['日付'],df['グループ']) 8 9ax = xt.plot(kind='bar') 10plt.show()

サンプルの実行結果

イメージ説明説明](3ef17316999f0cc521f690fa484e4139.png)

試したこと

python

1import numpy as np 2import matplotlib.pyplot as plt 3import matplotlib.dates as mdates 4import matplotlib.cbook as cbook 5 6years = mdates.YearLocator() # every year 7months = mdates.MonthLocator() # every month 8years_fmt = mdates.DateFormatter('%Y') 9 10# Load a numpy structured array from yahoo csv data with fields date, open, 11# close, volume, adj_close from the mpl-data/example directory. This array 12# stores the date as an np.datetime64 with a day unit ('D') in the 'date' 13# column. 14with cbook.get_sample_data('goog.npz') as datafile: 15 data = np.load(datafile)['price_data'] 16 17fig, ax = plt.subplots() 18ax.plot('date', 'adj_close', data=data) 19 20# format the ticks 21ax.xaxis.set_major_locator(years) 22ax.xaxis.set_major_formatter(years_fmt) 23ax.xaxis.set_minor_locator(months) 24 25# round to nearest years. 26datemin = np.datetime64(data['date'][0], 'Y') 27datemax = np.datetime64(data['date'][-1], 'Y') + np.timedelta64(1, 'Y') 28ax.set_xlim(datemin, datemax) 29 30# format the coords message box 31ax.format_xdata = mdates.DateFormatter('%Y-%m-%d') 32ax.format_ydata = lambda x: '$%1.2f' % x # format the price. 33ax.grid(True) 34 35# rotates and right aligns the x labels, and moves the bottom of the 36# axes up to make room for them 37fig.autofmt_xdate() 38 39plt.show()

参照: Matplotlib Documentation - Date tick Label

こちらのソースを参考にしたりしてみたのですが、crosstab からだと Axes が返ってくるため、figure をどう取得したらいいのかわからず、autofmt_xdate()ができないのでよく分かりませんでした。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

pandas.crosstab()の代わりに df.groupby([pd.Grouper(freq='MS'), 'グループ']).count().unstack() を使うと月集計になるかと思います

Python

1df = pd.read_csv('tera1.csv', parse_dates=['日時'], index_col='日時') 2 3#xt = pd.crosstab(df.index,df['グループ']) 4 5xt = df.groupby([pd.Grouper(freq='MS'), 'グループ']).count().unstack(fill_value=0) 6xt.columns = xt.columns.droplevel(0) 7xt.plot(kind='bar') 8 9plt.show()

【追記】

元の日時データを月毎のデータに変換したいのであれば Series.dt.strftime() にて文字列に変換するとよいかと思います。

Python

1import pandas as pd 2import matplotlib 3import matplotlib.pyplot as plt 4matplotlib.use('TkAgg') 5df = pd.read_csv('tera1.csv', parse_dates=['日時']) 6df['年月'] = df['日時'].dt.strftime('%Y/%m') 7print(df) 8 9xt = pd.crosstab(index=df['年月'], columns=df['グループ']) 10 11xt.plot(kind='bar') 12plt.show()

投稿2019/05/30 10:24

編集2019/05/31 07:28
magichan

総合スコア15898

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

waku_nagoya

2019/05/30 13:15

回答ありがとうございます。 集計データはそのままで、日付ラベルのみ月単位にできないでしょうか。
waku_nagoya

2019/05/31 07:28

追記ありがとうございます。 せっかく考えていただきましたが、データの集計結果が変わってしまうようです。
magichan

2019/05/31 07:28

日付ラベルから月単位のデータを得る方法を追加しました
magichan

2019/05/31 07:30

すみません単純ミスです月が分になっておりました %M->%m
waku_nagoya

2019/05/31 20:43

たくさんのご回答ありがとうございました。 ここ数日間、matplotlibのドキュメントなどを熟読して、だいぶ理解できてきました。 まだ分からないところはたくさんありますが、、、。 ある程度は解決に近づいたので自己解決として終わらせたいと思います。
guest

0

自己解決

以下の内容である程度は実現できました。

python

1%matplotlib inline 2 3import pandas as pd 4import matplotlib.pyplot as plt 5import matplotlib.ticker as ticker 6import matplotlib.dates as mdates 7import datetime 8 9months = mdates.MonthLocator() 10daylc = mdates.DateLocator() 11 12df = pd.read_csv('tera1.csv', usecols=['日時','グループ','ユーザー']) 13df['日付'] = pd.to_datetime(df['日時'].str.split(n=0, expand=True)[0]) 14 15xt = pd.crosstab(df['日付'],df['グループ']) 16fig, ax = plt.subplots(figsize=(20,10)) 17 18display(xt) 19ddelta = datetime.timedelta(days=3) 20 21ax.bar(xt.index, xt['ほげ部'], width=3) 22ax.bar(xt.index+ddelta, xt['ほにゃ部'], width=3) 23ax.bar(xt.index+ddelta*2, xt['らら部'], width=3) 24 25xax = ax.xaxis 26xax.set_major_locator(mdates.MonthLocator()) 27xax.set_minor_locator(mdates.WeekdayLocator()) 28xax.set_major_formatter(mdates.DateFormatter('%Y-%m'))

crosstabで取得した DataFrame をそのまま plot しないのは、そのまま使ってしまうと MonthLocator などがうまく動作しないからです。
まだつまづいている部分はありますが。。。

棒グラフの重なり具合が意図した通りにならないところです。
この辺は今後の課題として調査したいと思います。

イメージ説明
イメージ説明

投稿2019/05/31 20:47

編集2019/05/31 20:49
waku_nagoya

総合スコア200

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問