質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.50%

  • Python

    8013questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • pandas

    585questions

    Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

pandasでresampleしたデータの各開始時刻を、元データと揃えたい

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 2
  • VIEW 404

samr

score 1

 前提・実現したいこと

         time          data 
 2018-06-01 00:03:00   0    
 2018-06-01 00:04:00   1    
 2018-06-01 01:05:00   0    
 2018-06-01 01:06:00   1    

この様な抜けのある時系列データを、一時間単位でDataFrame.resampleすると

         time          data 
 2018-06-01 00:00:00   1    
 2018-06-01 01:00:00   1    

この様に最初のデータのタイムスタンプが00始まりになります。
これを元のデータと同じ開始時刻に揃え、

         time          data 
 2018-06-01 00:03:00   1    
 2018-06-01 01:05:00   1    

この様にしたいのです。

 該当のソースコード

import pandas as pd

df = pd.DataFrame(
    {'data':[0,1,0,1]},
    index = ["2018-06-01 00:03:00",
             "2018-06-01 00:04:00",
             "2018-06-01 01:05:00",
             "2018-06-01 01:06:00",])
df.index = pd.to_datetime(df.index)

print(df)
#                     data
#2018-06-01 00:03:00     0
#2018-06-01 00:04:00     1
#2018-06-01 01:05:00     0
#2018-06-01 01:06:00     1 

print(df.resample('1H').sum())
#                     data
#2018-06-01 00:00:00     1
#2018-06-01 01:00:00     1

 試したこと

実際のデータは巨大で、for文ではかなり時間が掛かってしまいました。
出来るだけ高速に実現する方法を探しています。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+1

こんな感じでどうでしょうか。

やっていることは、Resample後の Datetime と Resample前の Dateteime を関連付けたテーブル (Seriesデータ)を作成しておき、Resample後のデータに対して rename() を行っております。

import pandas as pd

df = pd.DataFrame(
    {'data':[0,1,0,1]},
    index = ["2018-06-01 00:03:00",
             "2018-06-01 00:04:00",
             "2018-06-01 01:05:00",
             "2018-06-01 01:06:00"])
df.index = pd.to_datetime(df.index)


conv = df.groupby(pd.Grouper(freq='1H')).apply(lambda d:d.index[0])
print(conv)
#2018-06-01 00:00:00   2018-06-01 00:03:00
#2018-06-01 01:00:00   2018-06-01 01:05:00
#Freq: H, dtype: datetime64[ns]

res = df.resample('1H').first().rename(index=conv)
print(res)
#                     data
#2018-06-01 00:03:00     0
#2018-06-01 01:05:00     0

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/06/18 21:49

    magichan様、ご回答ありがとうございます。
    部分データで試してみたところ、希望通りのデータになり喜んだのですが、
    実データで試してみると、applyで以下のエラーが出てしまいます。

    IndexError: index 0 is out of bounds for axis 0 with size 0

    エラーが発生するデータを調べてみると、1時間を超える欠損が続く場合にエラーが発生しているようです。
    もう少しだけ知恵をお貸しください。

    以下はエラーが出るコードです。
    ```python
    df = pd.DataFrame(
    {'data':[0,1,0,1,1,1]},
    index = ["2018-06-01 00:03:00",
    "2018-06-01 00:04:00",
    "2018-06-01 01:05:00",
    "2018-06-01 01:06:00",
    "2018-06-03 02:01:00",
    "2018-06-03 02:06:00"])
    df.index = pd.to_datetime(df.index)
    conv = df.groupby(pd.Grouper(freq='1H')).apply(lambda d:d.index[0])
    ```

    キャンセル

  • 2018/06/18 22:13

    多分原因は、groupbyの結果として空のDataframeが渡された際、lambda式のd.index[0] が存在しないためエラーになっているのかと思います。
    今手元に実行環境が無いので確認出来ないのですが、d.index.get(0) などで逃げれませんか?

    キャンセル

  • 2018/06/18 22:21

    取り急ぎ
    conv = df.groupby(pd.Grouper(freq='1H')).apply(lambda d:d.index.get(0)
    とやってみましたが、
    AttributeError: 'DatetimeIndex' object has no attribute 'get'
    とエラーが出てしまいました。

    キャンセル

  • 2018/06/18 22:38

    試行錯誤してみましたが、d.index[0]部を関数化しtryで逃げる事で出来そうな感じです。

    キャンセル

  • 2018/06/18 22:44

    magichan様、ありがとうございました!
    tryで逃げ、dropna()で余分なデータを消すことで希望通りのデータが出来ました。
    詳細は解決方法に記載しておきます。

    キャンセル

  • 2018/06/18 22:48

    すみません、解決方法は自己解決の場合だけなんですね。
    見づらいですが、ここにコードを記載しておきます。

    def func(d):
    try:
    res = d.index[0]
    except:
    return None
    return res

    df = pd.DataFrame(
    {'data':[0,1,0,1,1,1]},
    index = ["2018-06-01 00:03:00",
    "2018-06-01 00:04:00",
    "2018-06-01 01:05:00",
    "2018-06-01 01:06:00",
    "2018-06-03 02:01:00",
    "2018-06-03 02:06:00"])
    df.index = pd.to_datetime(df.index)

    conv = df.groupby(pd.Grouper(freq='1H')).apply(lambda d:func(d))
    res = df.resample('1H').first().rename(index=conv)
    res = res.dropna()

    print(res)
    # data
    #2018-06-01 00:03:00 0.0
    #2018-06-01 01:05:00 0.0
    #2018-06-03 02:01:00 1.0

    キャンセル

  • 2018/06/18 23:16

    上記のコードのresample集計関数をsum()にしたところ、
    dropna()では上手く行かなかったので、以下のように修正しました。
    何度も申し訳ありません。

    ...
    res = df.resample('1H').sum().rename(index=conv)
    res = res[~pd.isnull(res.index)]

    print(res)
    # data
    #2018-06-01 00:03:00 1
    #2018-06-01 01:05:00 1
    #2018-06-03 02:01:00 2

    キャンセル

  • 2018/06/19 01:12 編集

    連絡遅くなりました。
    うっ、DatetimeIndex には get() がありませんでしたか・・。やっぱりちゃんと確認しないと駄目ですね。申し訳ありませんでした。
    とはいえ、解決できたようでよかったです。

    一応私が書くとしたら ですが、DatetimeIndex には to_series() という method があるようなので

    conv = df.groupby(pd.Grouper(freq='1H')).apply(lambda d:d.index.to_series().get(0)).dropna()

    とするか、三項演算子をつかって

    conv = df.groupby(pd.Grouper(freq='1H')).apply(lambda d:None if d.empty else d.index[0]).dropna()

    とするかのどちらかかと思います。
    ここで最後に dropna() をしているのは、Index を Nan に rename するのを防ぐためとなります。

    キャンセル

  • 2018/06/19 01:52

    ありがとうございます。
    色々な書き方が有るのですね、スマートで良いですね。勉強になります。
    ですが、どちらも欠損間隔が1時間を超えるデータで実行すると、以下の様な欠損した時間を埋めたデータが出てきてしまいました。

    # data
    #2018-06-01 00:03:00 1
    #2018-06-01 01:05:00 1
    #2018-06-01 02:00:00 0
    #...
    #2018-06-03 01:00:00 0
    #2018-06-03 02:01:00 2

    一応、conv部のdropna()をせず、res[~pd.isnull(res.index)]することでfunc無しで期待通りのデータにすることは出来ました。
    resampleの方をどうにかすれば、もっとスマートに出来るでしょうか?

    キャンセル

  • 2018/06/19 13:23

    現状の方法でも全く問題ないかと思いますが、 dropna した conv データを使うなら

    res = df.resample('1H').sum().rename(index=conv)
    res = res[res.index.isin(conv)]

    のように書けるかと思います。
    あと join を使って

    res = conv.to_frame().join(df.resample('1H').sum()).set_index(0)

    のように1行で書くことも出来そうですね。

    キャンセル

  • 2018/06/19 20:44

    何度もありがとうございます。
    教えて頂いた方法を色々組み合わせて試してみました。conv部に関しては、

    1. funcを使う方法
    速度は一番速い(4.69 ms ± 32.4 µs)が、コードが冗長。
    2. to_seriesを使う方法
    速度が遅い(8.47 ms~8.62 ms ± 64.9 µs)
    3. 三項演算子を使う方法
    速度はfuncより少し遅くなる(4.81 ms ± 28.5 µs)が、スマート。

    res部に関してはどの方法でも速度への影響は然程ありませんでしたが、
    joinを使った方法だとインデックスの列名が変わってしまったので、
    最終的に分かりやすさを優先して、三項演算子を使った以下の方法に決めました。

    conv = df.groupby(pd.Grouper(freq='1H')).apply(lambda d:None if d.empty else d.index[0]).dropna()
    res = df.resample('1H').sum().rename(index=conv)
    res = res[res.index.isin(conv)]

    お付き合いくださいまして、どうもありがとうございました。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.50%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る

  • Python

    8013questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • pandas

    585questions

    Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。