質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

91.37%

  • Python 3.x

    2394questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • pandas

    201questions

    Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Pandas ログ解析時系列データで毎時(分)のアイテム別出現頻度カウント

解決済

回答 1

投稿 2017/12/08 00:41

  • 評価
  • クリップ 0
  • VIEW 51

minhouse10

score 7

Pandasのデータフレームで以下のようなデータがあります。指定した時間頻度で毎時、毎分、毎秒など集計はする事はできるのですが、Infoの各要素毎の出現カウントを指定した時間頻度で集計するにはどうすればよいでしょうか? Grouper, resample, aggなどを組み合わせる事で実現できそうではあるのですが、苦戦しております。ご教授の程よろしくお願いいたします。

データフレーム:df_2

Date                             Info 
2017-12-02 20:00:10.214937    Failure
2017-12-02 20:00:10.324322   Request,
2017-12-02 20:00:10.480982  Response,
2017-12-02 20:00:10.490494  Response,
2017-12-02 20:00:10.519340    Failure


df_2 = df_2.groupby(['Info', pd.Grouper(level=0, freq='h')]).count()
によって以下の様な形にはなりましたが、時間別のカウントは表示する事ができません。

Failure    2017-12-02 20:00:00
2017-12-02 21:00:00
2017-12-02 22:00:00
2017-12-02 23:00:00
2017-12-03 00:00:00
Request,2017-12-02 20:00:00
2017-12-02 21:00:00
2017-12-02 22:00:00
2017-12-02 23:00:00
2017-12-03 00:00:00
Response,2017-12-02 20:00:00
2017-12-02 21:00:00
2017-12-02 22:00:00
2017-12-02 23:00:00
2017-12-03 00:00:00
Success    2017-12-02 20:00:00
2017-12-02 21:00:00
2017-12-02 22:00:00
2017-12-02 23:00:00


以下の様な結果になれば更に見やすく理想です。
Failure Request, Response, Success
2017-12-02 20:00:00  3        3     1     4
2017-12-02 21:00:00 2        2     2     2
2017-12-02 22:00:00  2        5     3     1
2017-12-02 23:00:00  1        3     4     2
2017-12-03 00:00:00  1        2     5     1

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+1

Infoの各要素毎の出現カウントは value_counts() を使うと良いかと思います。

import pandas as pd
import numpy as np

# ダミーデータ生成
N=50
df = pd.DataFrame({
    'Date':pd.date_range('2017/12/02 20:00', freq='5min', periods=N),
    'Info':np.random.choice(['Request','Response','Failure'],N)
})
df = df.set_index('Date')

# 1時間毎に集計
ret = df.groupby(pd.Grouper(level=0, freq='h'))['Info'].value_counts().unstack(fill_value=0)

print(ret)
# Info                 Failure  Request  Response
# Date
# 2017-12-02 20:00:00        2        5         5
# 2017-12-02 21:00:00        6        5         1
# 2017-12-02 22:00:00        6        4         2
# 2017-12-02 23:00:00        4        4         4
# 2017-12-03 00:00:00        1        1         0

投稿 2017/12/08 08:55

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/12/08 11:22

    magichan様、いつもご教授頂きありがとうございます!
    アドバイスに従い実行した結果、完璧な結果が得られました。value_counts()は利用を試みたのですが、Dataframeにvalue_countsは使えないというようなエラーが出まして、Seriesにしないとだめなのかなと思っておりました。本当にありがとうございました。

    Info Failure Request, Response, Success
    Date
    2017-12-02 20:00:00 21339 8960 7029 105
    2017-12-02 21:00:00 21584 9089 7125 128
    2017-12-02 22:00:00 21087 8672 6873 60
    2017-12-02 23:00:00 19441 8333 6701 77
    2017-12-03 00:00:00 54 24 18 0

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

ただいまの回答率

91.37%

関連した質問

同じタグがついた質問を見る

  • Python 3.x

    2394questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • pandas

    201questions

    Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。