pandasでStartEnd形式のデータを時系列に整えたい

Question

pythonでのpandasを用いたデータ処理において詰まっておりますので、ぜひ助けていただけると幸いです。
なにとぞよろしくお願いします。

###前提・実現したいこと
ある時間にid=0がどこにあるか(Area)を分類・収集するプログラムが、start endの形式でデータを出力するので、データ処理の行いやすい時系列のデータに変換したい。

元となるStart End形式のデータ(raw_data)を
```
id | start_time          | end_time            | Area
0  | 2017-09-29 00:00:00 | 2017-09-29 00:00:02 | A
0  | 2017-09-29 00:00:02 | 2017-09-29 00:00:04 | B
```
時系列に変換したい(02秒でダブりあり）
```
time                | id  | Area.A | Area.B
2017-09-29 00:00:00 | 0   | 1      | 0
2017-09-29 00:00:01 | 0   | 1      | 0
2017-09-29 00:00:02 | 0   | 1      | 1
2017-09-29 00:00:03 | 0   | 0      | 1
2017-09-29 00:00:04 | 0   | 0      | 1
```

###発生している問題・エラーメッセージ
下記メッセージが出て、処理が終了せず。
```
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
```

###該当のソースコード
```ここに言語を入力
# --- 入力データの編集 ------
raw_data = pd.csv_read("必要なデータ.csv")
# ダミー変数作成
raw_dummy = pd.get_dummies(copy_raw_data[['Area']])
# 結合
con_data = pd.concat([copy_raw_data,raw_dummy],axis=1)
con_data.reset_index(inplace=True)  # increment変数のため

# --- DatetimeIndexを用意して、新しいDataFrameを作成
dti = pd.date_range(start=min(raw_data['start_time']), end=max(raw_data['end_time']), freq='S')
df_freq = DataFrame(index=dti, columns=raw_dummy.columns)
df_freq['id'] = NA
df_freq.rename(columns={'index': 'time'}, inplace=True)

# --- 以下、問題を抱えている部分-------
for i in con_data['index']:
    t_range = pd.date_range(start=con_data['start_time'][i], end=con_data['end_time'][i],freq='S')
    for t in t_range:
        for c in raw_dummy.columns:
            df_freq[c][t] += con_data[c][i]
df_freq.head()
```

###試したこと
DataFrameのapplyを使う、for文を成型するなどしましたが、うまくいっていません。

###補足情報(言語/FW/ツール等のバージョンなど)
python3

Accepted Answer

少し遅かった・・・こんな感じでいかがでしょうか。 > 挙げて頂いたコードが、一部定義が不明な箇所がありましたので、書き直してみました。 ```Python id,start_time,end_time,Area 0,2017-09-29 00:00:00,2017-09-29 00:00:02,A 0,2017-09-29 00:00:02,2017-09-29 00:00:04,B 0,2017-09-29 00:00:04,2017-09-29 00:00:06,A 0,2017-09-29 00:00:06,2017-09-29 00:00:08,B ``` なるデータに対して ```Python import pandas as pd raw_data = pd.read_csv('data.csv', parse_dates=['start_time', 'end_time']) df = pd.DataFrame(index=pd.date_range(start=min(raw_data['start_time']), end=max(raw_data['end_time']), freq='S')) for col in raw_data['Area'].unique(): gdf = raw_data.groupby('Area').get_group(col) df[col] = df.index.map(lambda d: ((gdf['start_time'] <= d) & (d <= gdf['end_time'])).any()) print(df) # => A B # 2017-09-29 00:00:00 True False # 2017-09-29 00:00:01 True False # 2017-09-29 00:00:02 True True # 2017-09-29 00:00:03 False True # 2017-09-29 00:00:04 True True # 2017-09-29 00:00:05 True False # 2017-09-29 00:00:06 True True # 2017-09-29 00:00:07 False True # 2017-09-29 00:00:08 False True ``` のように書けるかと思います。

Answer

自己解決いたしました。
データフレームのセルの指定方法を、df["columns_name"]["row_name"]をdf.loc[row,col]の形式に変更することで上手くいきました。
また、計算結果がNaNになってしまったので、先にfillna(0)で0埋めして欲しい値を得ることが出来ました。

```
# --- 以下、問題を抱えている部分(修正版)-------
# NAのままでは計算できないので0置換
con_data.fillna(0,inplace=True)
# ループで代入(できればスッキリさせたかった)
for i in con_data['index']:
    t_range = pd.date_range(start=con_data['start_time'][i], end=con_data['end_time'][i],freq='S')
    for t in t_range:
        for c in raw_dummy.columns:
            # df["columns_name"]["row_name"] -> df.loc[row,col]の形式に変更
            df_freq.loc[t,c] += con_data.loc[i,c]
```
考えて頂いた皆様、ありがとうございました。
別解などでスッキリと書ける方法がございましたらご教授願いたいです。
よろしくお願いします。

関連した質問