🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中!

\teratail特別グッズやAmazonギフトカード最大2,000円分が当たる!/

詳細はこちら
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

2回答

476閲覧

pandasで特定の行ごとの平均をとり、時刻のみ指定してデータを抽出方法

fox_cat

総合スコア8

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

2クリップ

投稿2019/10/24 11:48

前提・実現したいこと

pandasのDateTimeIndex型のインデックスとなっているデータで、Aのデータのみ平均化を行った後、時刻のみ指定してデータを抽出方法があれば、ご教授頂きたいです。

A B
TIME
2019-01-15 00:00:00.400 10 200
2019-01-15 00:10:00.400 6 2051
2019-01-15 00:20:00.400 10 5
2019-01-15 00:30:00.400 2 123
2019-01-15 00:40:00.400 11 1234
2019-01-15 00:50:00.400 7 1342
2019-01-15 01:00:00.400 10 61234
2019-01-15 01:10:00.400 10 200
2019-01-15 01:20:00.400 6 2051
2019-01-15 01:30:00.400 10 5
2019-01-15 01:40:00.400 2 123
2019-01-15 01:50:00.400 11 1234
2019-01-15 02:00:00.400 7 1342
2019-01-15 02:10:00.400 10 6234
2019-01-15 02:20:00.400 10 13234
2019-01-15 02:30:00.400 10 6264
2019-01-15 02:40:00.400 10 6124
2019-01-15 02:50:00.400 10 6234

出てほしい結果

1行目は0時台10+6+10+2+11+7=46を平均した7.66666666667を、
2行目は1時台10+10+6+10+2+11=49を平均した8.16666666667を表示させたいです。
A B
TIME
2019-01-15 01:00:00.400 7.66666666667 61234
2019-01-15 02:00:00.400 8.16666666667 1342
###試したこと
meanで全体の平均を出す方法は分かったのですが、時刻のみ指定してで表示方法が分かりませんでした。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

時系列データの集計にはresample()が便利です。
Aの"時"についての平均は以下のようになります。

python

1df.A.resample('H').mean() 2 3# TIME 4# 2019-01-15 00:00:00 7.666667 5# 2019-01-15 01:00:00 8.166667 6# 2019-01-15 02:00:00 9.500000 7# Freq: H, Name: A, dtype: float64

平均以外にも最大、最小などのほか、独自の集計も可能です。

https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#resampling

Aは平均、Bは最初の値をとりたい場合は、

python

1df.resample('H').aggregate({'A': 'mean', 'B': 'first'}) 2 3# A B 4# TIME 5# 2019-01-15 00:00:00 7.666667 200 6# 2019-01-15 01:00:00 8.166667 61234 7# 2019-01-15 02:00:00 9.500000 1342

もとの時刻も残したい場合はこんな感じで。

python

1(df.reset_index() 2 .resample('H', on='TIME') 3 .aggregate({'TIME': 'first', 'A': 'mean', 'B': 'first'}) 4 .set_index('TIME')) 5 6# A B 7# TIME 8# 2019-01-15 00:00:00.400 7.666667 200 9# 2019-01-15 01:00:00.400 8.166667 61234 10# 2019-01-15 02:00:00.400 9.500000 1342

投稿2019/11/19 02:07

bsdfan

総合スコア4794

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

fox_cat

2019/11/19 07:52

前回に引き続き回答ありがとうございます。 実行してみたところ無事動作しました。 最初の場合はfirstだと分かったのですが、最後の場合はどのようにすればいいのでしょうか?
bsdfan

2019/11/19 09:07

last でできます。
fox_cat

2019/11/19 16:39

ありがとうございます。 無事表示できました!
guest

0

.groupby() の出番ですね。

時刻ごと、とのことなので時刻でグルーピングして平均化すれば良いと思います。

期待されている結果をみる限りA列はもとの DataFrame の0時代の値の平均を使ってますが B列と index は 01:00:00 の行の値を使う(1時間ずれている)ということだと仮定して計算してみました。

python

1import pandas as pd 2df = pd.read_csv('data.csv', index_col=0) # データを読み込む 3df2 = df.reset_index() 4 5# TIME A B 6# 0 2019-01-15 00:00:00.400 10 200 7# 1 2019-01-15 00:10:00.400 6 2051 8# 2 2019-01-15 00:20:00.400 10 5 9# 3 2019-01-15 00:30:00.400 2 123 10# 4 2019-01-15 00:40:00.400 11 1234 11 12# 時刻の列を作る 13df2['HOUR'] = df2['TIME'].apply(lambda x: x[11:13]).astype(int) 14 15# TIME A B HOUR 16# 0 2019-01-15 00:00:00.400 10 200 0 17# 1 2019-01-15 00:10:00.400 6 2051 0 18# 2 2019-01-15 00:20:00.400 10 5 0 19# 3 2019-01-15 00:30:00.400 2 123 0 20# 4 2019-01-15 00:40:00.400 11 1234 0 21 22group = df2.groupby('HOUR') 23 24# A の時刻ごとの平均の計算 25group_a = group.mean()['A'] 26 27# HOUR 28# 0 7.666667 29# 1 8.166667 30# 2 9.500000 31# Name: A, dtype: float64 32 33# TIME 列、 B 列の先頭を取る 34group_b = group.first().drop('A', axis=1) 35 36# TIME B 37# HOUR 38# 0 2019-01-15 00:00:00.400 200 39# 1 2019-01-15 01:00:00.400 61234 40# 2 2019-01-15 02:00:00.400 1342 41# 期待する形にconcat するためにわざと index をずらす 42group_b.index = [x - 1 for x in group_b.index] 43 44# 結合 45out = pd.concat([group_a, group_b], axis=1)[['TIME', 'A', 'B']].dropna() # index をずらした分 NaN が現れるので drop 46 47# 列をインデックスに戻すのと型の修正 48out.index = out['TIME'] 49out = out.drop('TIME', axis=1) 50out['B'] = out['B'].astype(int) 51 52print(out) 53# A B 54# TIME 55# 2019-01-15 01:00:00.400 7.666667 61234 56# 2019-01-15 02:00:00.400 8.166667 1342

ちょっとデータフレームを整形するために色々トリッキーなことしてますが、あんまり関係ないです。
時刻の列を作って、groupby メソッドを使い、グルーピングした結果に対し計算を施すのがこの課題のキモだと思います。

投稿2019/10/24 16:53

編集2019/10/24 17:02
515hikaru

総合スコア19

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

fox_cat

2019/11/18 13:24

# 時刻の列を作る df2['HOUR'] = df2['TIME'].apply(lambda x: x[11:13]).astype(int) この部分のlambda以降が分からないのですが、どのようなことを行っているのでしょうか?
515hikaru

2019/11/18 13:39

`2019-01-15 00:00:00.400` をただの文字列だと思うと、11文字目と12文字目が時間を表しています。(0時とか1時とか11時とか)それだけ取り出す処理が lambda の中身です。 真面目にやるなら下記のリンクのように datetime 型を使って時間を取得するほうが良いのですが、これを書いているときはそこまで気が回っていなかったようです。。 https://note.nkmk.me/python-pandas-datetime-timestamp/
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問