質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.80%

pandasでresampleしたデータの各開始時刻を、元データと揃えたい

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 2
  • VIEW 3,514

samr

score 9

 前提・実現したいこと

         time          data 
 2018-06-01 00:03:00   0    
 2018-06-01 00:04:00   1    
 2018-06-01 01:05:00   0    
 2018-06-01 01:06:00   1    

この様な抜けのある時系列データを、一時間単位でDataFrame.resampleすると

         time          data 
 2018-06-01 00:00:00   1    
 2018-06-01 01:00:00   1    

この様に最初のデータのタイムスタンプが00始まりになります。
これを元のデータと同じ開始時刻に揃え、

         time          data 
 2018-06-01 00:03:00   1    
 2018-06-01 01:05:00   1    

この様にしたいのです。

 該当のソースコード

import pandas as pd

df = pd.DataFrame(
    {'data':[0,1,0,1]},
    index = ["2018-06-01 00:03:00",
             "2018-06-01 00:04:00",
             "2018-06-01 01:05:00",
             "2018-06-01 01:06:00",])
df.index = pd.to_datetime(df.index)

print(df)
#                     data
#2018-06-01 00:03:00     0
#2018-06-01 00:04:00     1
#2018-06-01 01:05:00     0
#2018-06-01 01:06:00     1 

print(df.resample('1H').sum())
#                     data
#2018-06-01 00:00:00     1
#2018-06-01 01:00:00     1

 試したこと

実際のデータは巨大で、for文ではかなり時間が掛かってしまいました。
出来るだけ高速に実現する方法を探しています。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+1

こんな感じでどうでしょうか。

やっていることは、Resample後の Datetime と Resample前の Dateteime を関連付けたテーブル (Seriesデータ)を作成しておき、Resample後のデータに対して rename() を行っております。

import pandas as pd

df = pd.DataFrame(
    {'data':[0,1,0,1]},
    index = ["2018-06-01 00:03:00",
             "2018-06-01 00:04:00",
             "2018-06-01 01:05:00",
             "2018-06-01 01:06:00"])
df.index = pd.to_datetime(df.index)


conv = df.groupby(pd.Grouper(freq='1H')).apply(lambda d:d.index[0])
print(conv)
#2018-06-01 00:00:00   2018-06-01 00:03:00
#2018-06-01 01:00:00   2018-06-01 01:05:00
#Freq: H, dtype: datetime64[ns]

res = df.resample('1H').first().rename(index=conv)
print(res)
#                     data
#2018-06-01 00:03:00     0
#2018-06-01 01:05:00     0

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/06/19 01:52

    ありがとうございます。
    色々な書き方が有るのですね、スマートで良いですね。勉強になります。
    ですが、どちらも欠損間隔が1時間を超えるデータで実行すると、以下の様な欠損した時間を埋めたデータが出てきてしまいました。

    # data
    #2018-06-01 00:03:00 1
    #2018-06-01 01:05:00 1
    #2018-06-01 02:00:00 0
    #...
    #2018-06-03 01:00:00 0
    #2018-06-03 02:01:00 2

    一応、conv部のdropna()をせず、res[~pd.isnull(res.index)]することでfunc無しで期待通りのデータにすることは出来ました。
    resampleの方をどうにかすれば、もっとスマートに出来るでしょうか?

    キャンセル

  • 2018/06/19 13:23

    現状の方法でも全く問題ないかと思いますが、 dropna した conv データを使うなら

    res = df.resample('1H').sum().rename(index=conv)
    res = res[res.index.isin(conv)]

    のように書けるかと思います。
    あと join を使って

    res = conv.to_frame().join(df.resample('1H').sum()).set_index(0)

    のように1行で書くことも出来そうですね。

    キャンセル

  • 2018/06/19 20:44

    何度もありがとうございます。
    教えて頂いた方法を色々組み合わせて試してみました。conv部に関しては、

    1. funcを使う方法
    速度は一番速い(4.69 ms ± 32.4 µs)が、コードが冗長。
    2. to_seriesを使う方法
    速度が遅い(8.47 ms~8.62 ms ± 64.9 µs)
    3. 三項演算子を使う方法
    速度はfuncより少し遅くなる(4.81 ms ± 28.5 µs)が、スマート。

    res部に関してはどの方法でも速度への影響は然程ありませんでしたが、
    joinを使った方法だとインデックスの列名が変わってしまったので、
    最終的に分かりやすさを優先して、三項演算子を使った以下の方法に決めました。

    conv = df.groupby(pd.Grouper(freq='1H')).apply(lambda d:None if d.empty else d.index[0]).dropna()
    res = df.resample('1H').sum().rename(index=conv)
    res = res[res.index.isin(conv)]

    お付き合いくださいまして、どうもありがとうございました。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.80%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る