質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

2回答

1175閲覧

pandasで複数の条件で新しく列を生成する。

pinocookie

総合スコア17

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2018/07/24 08:25

現在下記のようなデータを取得しています。

日付(datetimeindex)時間(h)ID売れ数
2015-01-01 00:00:00410120
2015-01-01 00:00:0043100
2015-01-01 00:00:00610110
2015-01-01 00:00:001290
2015-01-02 00:00:0041080
2015-01-02 00:00:001370
2015-01-02 00:00:00210130
2015-01-02 00:00:0055140
2015-01-02 00:00:00610110

このデータに新しく同じ時間・同じIDの1日前のデータを付け加えたいと考えています。

この場合であれば

日付(datetimeindex)時間(h)ID売れ数
2015-01-02 00:00:0041080

このデータに

日付(datetimeindex)時間(h)ID売れ数
2015-01-01 00:00:00410120

こちらの120という売れ数を付け加え、

日付(datetimeindex)時間(h)ID売れ数前日売れ数
2015-01-02 00:00:0041080120

というようなデータです。

これをデータフレーム全体に適用させるにはどのようにすればよろしいでしょうか。
宜しくお願いします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

いろいろ方法はありそうだけど・・。
とりあえずpandas.merge() 使って書いてみました。

Python

1import pandas as pd 2import io 3 4data = """ 5日付,時間,ID,売れ数 62015-01-01 00:00:00,4,10,120 72015-01-01 00:00:00,4,3,100 82015-01-01 00:00:00,6,10,110 92015-01-01 00:00:00,1,2,90 102015-01-02 00:00:00,4,10,80 112015-01-02 00:00:00,1,3,70 122015-01-02 00:00:00,2,10,130 132015-01-02 00:00:00,5,5,140 142015-01-02 00:00:00,6,10,110 15""" 16 17df = pd.read_csv(io.StringIO(data), parse_dates=['日付'], index_col='日付') 18 19df1 = df.reset_index() 20df2 = df.shift(1, freq='D').reset_index().rename(columns={'売れ数':'前日売れ数'}) 21res = pd.merge(df1, df2, on=['日付', '時間', 'ID'], how='left').set_index('日付') 22print(res) 23# 時間 ID 売れ数 前日売れ数 24#日付 25#2015-01-01 4 10 120 NaN 26#2015-01-01 4 3 100 NaN 27#2015-01-01 6 10 110 NaN 28#2015-01-01 1 2 90 NaN 29#2015-01-02 4 10 80 120.0 30#2015-01-02 1 3 70 NaN 31#2015-01-02 2 10 130 NaN 32#2015-01-02 5 5 140 NaN 33#2015-01-02 6 10 110 110.0

投稿2018/07/24 10:57

magichan

総合スコア15898

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

pinocookie

2018/07/28 05:53

回答ありがとうございます。 うまくいきました。! 実際に使用しているデータには時間が抜けていたりしたので、以下のように同じ時間帯での平均値を補間しました。 res = pd.merge(df1, df2, on=['日付', '時間', 'ID'], how='left').set_index('日付') nan_slice = np.isnan(res['前日売れ数']) res['前日売れ数'].loc[nan_slice] = res['前日売れ数'].groupby([df['ID'], df['時間']]).transform('mean').loc[nan_list]
guest

0

applyでaxis=1を利用します。
これで1行ずつ処理するのですが、lambda式で処理を指定します。
lambda式の中で、各列が参照できるので、その日付列から1日前を算出し、元のDataFrameからその算出した日付に該当する売れ数をlambda式の結果とします。

applyの結果を前日売れ数列に代入します。
f = lambda x: xxx(略)
df['前日売れ数'] = df.apply(f)

投稿2018/07/24 09:16

t_obara

総合スコア5488

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問