質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

1回答

1518閲覧

pandasで複数の列を参照して、過去n日間の平均を算出する

pinocookie

総合スコア17

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2018/08/04 01:45

現在下記のようなデータを取り扱っています。

python

1test = pd.DataFrame({ '日付' : ['2016-04-01','2016-04-01','2016-04-01','2016-04-01','2016-04-01','2016-04-01', 2 '2016-04-02','2016-04-02','2016-04-02','2016-04-02','2016-04-02','2016-04-02', 3 '2016-04-03','2016-04-03','2016-04-03'], 4 '時間' : ['6','12','18','6','12','18', 5 '6','12','18','6','12','18', 6 '6','12','18'], 7 'ID' : ['1','1','1','2','2','2', 8 '1','2','1','2','1','2', 9 '1','1','1'], 10 '売上' : [1,2,1,3,4.5,1, 11 2,3,6,7,4,8, 12 10,2,5] 13 }) 14 15test.index = pd.to_datetime(test['日付']) 16test.index.name = 'index' 17test

下記のような日付ごと・時間帯ごと・IDごとのデータになっています。

|index|日付|時間|ID|売上|
|:--|:--|:--|:--|
|index||
2016-04-01| 2016-04-01| 6| 1| 1.0
2016-04-01| 2016-04-01| 12| 1| 2.0
2016-04-01| 2016-04-01| 18| 1| 1.0
2016-04-01| 2016-04-01| 6| 2| 3.0
2016-04-01| 2016-04-01| 12| 2| 4.5
2016-04-01| 2016-04-01| 18| 2| 1.0
2016-04-02| 2016-04-02| 6| 1| 2.0
2016-04-02| 2016-04-02| 12| 2| 3.0
2016-04-02| 2016-04-02| 18| 1| 6.0
2016-04-02| 2016-04-02| 6| 2| 7.0
2016-04-02| 2016-04-02| 12| 1| 4.0
2016-04-02| 2016-04-02| 18| 2| 8.0
2016-04-03| 2016-04-03| 6| 1| 10.0
2016-04-03| 2016-04-03| 12| 1| 2.0
2016-04-03| 2016-04-03| 18| 1| 5.0

このデータ下記のような操作を行う事で任意の過去n日前のデータを抽出で来ています。

python

1test1 = test.reset_index() 2test1 3 4test2 = test.shift(1, freq='D').reset_index().rename(columns={'売上': '前日売上'}) 5test2 6 7res = pd.merge(test1, test2.drop(['日付'], axis=1), on=['index', '時間', 'ID'], how='left').set_index('index') 8res
index日付時間ID売上前日売上
2016-04-012016-04-01611.0NaN
2016-04-012016-04-011212.0NaN
2016-04-012016-04-011811.0NaN
2016-04-012016-04-01623.0NaN
2016-04-012016-04-011224.5NaN
2016-04-012016-04-011821.0NaN
2016-04-022016-04-02612.01.0
2016-04-022016-04-021223.04.5
2016-04-022016-04-021816.01.0
2016-04-022016-04-02627.03.0
2016-04-022016-04-021214.02.0
2016-04-022016-04-021828.01.0
2016-04-032016-04-036110.02.0
2016-04-032016-04-031212.04.0
2016-04-032016-04-031815.06.0

この手法では任意の過去の日付のデータを取得できます。

ただ今回計算したいことは、たとえば2016年4月3日の時間帯12時のIDが1番のデータに、2016年4月1日と2016年4月2日の同じ時間帯・同じIDの売上の平均値や中央値を入れるという作業です。

上記のコードで、1日前と2日前のデータを新たに列に追加し、それらをapply関数などで平均を取ればできるとは思いますが、こういった列を別途作成することなく以上を計算する事はできるのでしょうか。

宜しくお願いします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

同ID 同時間帯ごとの平均値や中央値を求めたいという事ですかね?

Python

1test['同時間平均値'] = test.groupby(['時間','ID'])["売上"].transform('mean') 2test['同時間中央値'] = test.groupby(['時間','ID'])['売上'].transform('median')

投稿2018/08/04 06:42

magichan

総合スコア15898

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

pinocookie

2018/08/04 08:06

回答ありがとうございます。 今回求めたいのは、過去n日間の統計情報なので、ご提示していただいたものだと全期間の平均や中央値になるかと思います。 現在過去3週間の平均を取ろうとしたときは、1~21日前までの列の各自作成し、apply関数を列方向に適用させ、それらの列を足し合わせて平均や中央値を計算しています。 しかしこの計算方法ではかなり時間がかかってしまうため、列を日にちごとに作成することなく、統計計算をすることができるのかお聞きしたいです。
magichan

2018/08/06 00:04

返信遅くなりました。 であれば、transform() 内から呼び出す関数にて、DataFrame.rolling() を使用して移動平均を求めるとよいのではないでしょうか。 average_for_2weeks = lambda d: d.rolling('14d').mean() df['同時間平均値'] = df.groupby(['時間','ID'])['売上'].transform(average_for_2weeks)
pinocookie

2018/08/07 06:27

回答ありがとうございます! 先ほど試してみたんですが、rollingの場合だと現在の値も含めた過去2週間(現時点・1週間前・2週間前)の3点の平均になってしまうので、一時的に7日前の売上の列を作成し、その列に対してご提示していただいたコードを使用し、過去2週間の値を求める事ができました! 現時点の行を無視してrollingを適用させる方法などはあるのでしょうか。
magichan

2018/08/07 07:12

単に 移動平均の結果を shift() するのでは駄目でしょうか? average_for_2weeks = lambda d: d.rolling('14d').mean().shift(1)
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問