pandasでStartEnd形式のデータを時系列に整えたい

pythonでのpandasを用いたデータ処理において詰まっておりますので、ぜひ助けていただけると幸いです。
なにとぞよろしくお願いします。

###前提・実現したいこと
ある時間にid=0がどこにあるか(Area)を分類・収集するプログラムが、start endの形式でデータを出力するので、データ処理の行いやすい時系列のデータに変換したい。

元となるStart End形式のデータ(raw_data)を

id | start_time          | end_time            | Area
0  | 2017-09-29 00:00:00 | 2017-09-29 00:00:02 | A
0  | 2017-09-29 00:00:02 | 2017-09-29 00:00:04 | B

時系列に変換したい(02秒でダブりあり）

time                | id  | Area.A | Area.B
2017-09-29 00:00:00 | 0   | 1      | 0
2017-09-29 00:00:01 | 0   | 1      | 0
2017-09-29 00:00:02 | 0   | 1      | 1
2017-09-29 00:00:03 | 0   | 0      | 1
2017-09-29 00:00:04 | 0   | 0      | 1

###発生している問題・エラーメッセージ
下記メッセージが出て、処理が終了せず。

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy

###該当のソースコード

# --- 入力データの編集 ------
raw_data = pd.csv_read("必要なデータ.csv")
# ダミー変数作成
raw_dummy = pd.get_dummies(copy_raw_data[['Area']])
# 結合
con_data = pd.concat([copy_raw_data,raw_dummy],axis=1)
con_data.reset_index(inplace=True)  # increment変数のため

# --- DatetimeIndexを用意して、新しいDataFrameを作成
dti = pd.date_range(start=min(raw_data['start_time']), end=max(raw_data['end_time']), freq='S')
df_freq = DataFrame(index=dti, columns=raw_dummy.columns)
df_freq['id'] = NA
df_freq.rename(columns={'index': 'time'}, inplace=True)

# --- 以下、問題を抱えている部分-------
for i in con_data['index']:
    t_range = pd.date_range(start=con_data['start_time'][i], end=con_data['end_time'][i],freq='S')
    for t in t_range:
        for c in raw_dummy.columns:
            df_freq[c][t] += con_data[c][i]
df_freq.head()

###試したこと
DataFrameのapplyを使う、for文を成型するなどしましたが、うまくいっていません。

###補足情報(言語/FW/ツール等のバージョンなど)
python3

行動規範の内容に同意します

回答2件

ベストアンサー

少し遅かった・・・

こんな感じでいかがでしょうか。

挙げて頂いたコードが、一部定義が不明な箇所がありましたので、書き直してみました。

Python
1id,start_time,end_time,Area
20,2017-09-29 00:00:00,2017-09-29 00:00:02,A
30,2017-09-29 00:00:02,2017-09-29 00:00:04,B
40,2017-09-29 00:00:04,2017-09-29 00:00:06,A
50,2017-09-29 00:00:06,2017-09-29 00:00:08,B

なるデータに対して

Python
1import pandas as pd
2
3raw_data = pd.read_csv('data.csv', parse_dates=['start_time', 'end_time'])
4
5df = pd.DataFrame(index=pd.date_range(start=min(raw_data['start_time']), end=max(raw_data['end_time']), freq='S'))
6
7for col in raw_data['Area'].unique():
8    gdf = raw_data.groupby('Area').get_group(col)
9    df[col] = df.index.map(lambda d: ((gdf['start_time'] <= d) & (d <= gdf['end_time'])).any())
10
11print(df)
12# =>                          A      B
13#    2017-09-29 00:00:00   True  False
14#    2017-09-29 00:00:01   True  False
15#    2017-09-29 00:00:02   True   True
16#    2017-09-29 00:00:03  False   True
17#    2017-09-29 00:00:04   True   True
18#    2017-09-29 00:00:05   True  False
19#    2017-09-29 00:00:06   True   True
20#    2017-09-29 00:00:07  False   True
21#    2017-09-29 00:00:08  False   True

のように書けるかと思います。

投稿2017/10/17 01:18

magichan

総合スコア15898

hamar1

2017/10/17 01:27

@magichan様回答いただきありがとうございます。めちゃくちゃスッキリ書かれていて感動しました。 parse_datesやmapなどの関数は初めて知ったので改めてdocument読んでおきます。解決済みにした後にベストアンサー変更する方法も調査して対応できればいたします。

hamar1

2017/11/17 05:16 編集

結局、新しいdfのtimeでloopを回すと非常に時間がかかってしまったため、試していく中で以下のコードになりました。 ``` df_ret = pd.DataFrame() # idごとに処理する for i in df['id'].unique(): gdf = df.groupby('id').get_group(i) df_temp = pd.DataFrame(index=pd.date_range(start=min(gdf['start_time']), end=max(gdf['end_time']) , freq='S')) for idx, row in gdf.iterrows(): # 新DFに開始時間を登録 df_temp.loc[row['start_time']:row['end_time'],row['area']] = 1 df_temp['id'] = i # 処理終了分を結合 df_ret = pd.concat([df_ret,df_temp], ignore_index=True) # すべてのNullを埋めて、INDEXリセット df_ret.fillna(0,inplace=True) df_ret.reset_index(drop=True, inplace=True) df_ret ```

行動規範の内容に同意します

自己解決いたしました。
データフレームのセルの指定方法を、df["columns_name"]["row_name"]をdf.loc[row,col]の形式に変更することで上手くいきました。
また、計算結果がNaNになってしまったので、先にfillna(0)で0埋めして欲しい値を得ることが出来ました。

# --- 以下、問題を抱えている部分(修正版)-------
# NAのままでは計算できないので0置換
con_data.fillna(0,inplace=True)
# ループで代入(できればスッキリさせたかった)
for i in con_data['index']:
    t_range = pd.date_range(start=con_data['start_time'][i], end=con_data['end_time'][i],freq='S')
    for t in t_range:
        for c in raw_dummy.columns:
            # df["columns_name"]["row_name"] -> df.loc[row,col]の形式に変更
            df_freq.loc[t,c] += con_data.loc[i,c]

考えて頂いた皆様、ありがとうございました。
別解などでスッキリと書ける方法がございましたらご教授願いたいです。
よろしくお願いします。

投稿2017/10/17 01:08

hamar1

総合スコア26