質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

89.08%

データフレーム中のユニークな組み合わせの頻度を求めたい

解決済

回答 2

投稿

  • 評価
  • クリップ 0
  • VIEW 2,269

Asky

score 17

 前提・実現したいこと

tsvを、pandas.DataFrameで読み込み、以下のように二列の要素の組み合わせの頻度を求めて、
組み合わせと頻度のデータフレームを作成したいと考えています。

元のデータ(tsv)

new old
    800         800    
    800         800    
    800         800    
    800         900    
    900         900    
    900         1000    
    1000         800    
    1000         900    
    1000         900    
    1000         1000    

作成したいデータフレーム

new old freq
    800         800     3
    800         900     1
    900         900     1
    900         1000     1
    1000         800     1
    1000         900     2
    1000         1000     1

tsvファイルは4列x2,000,000行前後のものが1000ファイルあります。
(一つのtsvファイルに上記の元データの形のデータが横に二つ並んでいるような状態です。)
(1列目と3列目、2列目と4列目の組み合わせの頻度を独立に求めるつもりです。)
要素には200 ~ 1000の数値が入っています。

 発生している問題・エラーメッセージ

試しに1ファイルでやってみましたが、読み込みに30秒くらいかかってしまいました。
頻度の列を求めようとすると、五分くらいかかり、tsvファイルが大きいときはブラウザが落ちてしまいます(Jupyter notebookを使っています)。
このままでは1000ファイルを読み込んで一つの頻度列を求められず困っております。

 該当のソースコード

import os
import pandas as pd

#ファイル名のリスト作成
path = "./demo/"
files = os.listdir(path)
files_file = [f for f in files if os.path.isfile(os.path.join(path, f))]

#データフレーム初期化
df1 = pd.DataFrame(index=[], columns=[])
df2 = pd.DataFrame(index=[], columns=[])

# データ読み込み
def load(df1,df2):
    for f in files_file:
        #./demoのtsvを読み込む。ヘッダーは無い。
        df_tmp = pd.read_table('./demo/'+ f, header = None)
        #1列目と3列目が対応
        df_tmp1 = df_tmp.iloc[:,[0,2]]
        df_tmp1 = df_tmp1.rename(columns={0: 'new', 2: 'old'})
        #縦につなげる
        df1 = pd.concat([df1, df_tmp1])
        #2列目と4列目が対応
        df_tmp2 = df_tmp.iloc[:,[1,3]]
        df_tmp2 = df_tmp2.rename(columns={1: 'new', 3: 'old'}) 
        #縦につなげる
        df2 = pd.concat([df2, df_tmp2])

    print(df.head().append(df.tail()))
    return df1, df2

df1, df2 = load(df1,df2)

#表示
df = load()
new old
    0         864         864    
    1         849         849    
    2         849         849    
    3         849         849    
    4         849         849    
    20308038         849         849    
    20308039         849         849    
    20308040         864         865    
    20308041         855         856    
    20308042         864         865    
# 二つの要素を文字列に変換して結合した列をつくる
df1['comb'] = df1['new'].astype(str) + df1['old'].astype(str)
# 結合した文字列の頻度を数えて、vcに入れる
vc = df1['comb'].value_counts()
vc

 試したこと

上記のように、数値を文字列に変換して結合することで、組み合わせのユニークさを評価できる要素を作りましたが、ここで非常に時間がかかってしまうようです。
数値の組み合わせの頻度をカウントするいい方法はありませんでしょうか?

 補足情報(FW/ツールのバージョンなど)

Python 3.6.3
Jupyter notebook 4.4.0

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

+2

groupby().count() で実装すると良いのではないでしょうか。

res = df.assign(count=0).groupby(['new','old'])['count'].count().reset_index()

とりあえず私の環境では、文字列に変換する方法に対して10倍くらいの速度が得られております

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/08/06 09:31

    すぐに実装できて私の環境でも10倍以上早くなりました。ありがとうございます!

    キャンセル

checkベストアンサー

+1

ファイルサイズが大きいとのことなので、一行ずつ処理するのがいいのかもしれません。ファイルの読み込みは標準のcsvモジュール、カウンターとしてはdefaultdictを使うと次のようになります。

1個のファイルへの処理

import csv
from collections import defaultdict

counter = defaultdict(int)  # intの0で初期化するdict
filename = "xxx"
with open(filename) as f:
    reader = csv.reader(f)
    for row in reader:
        key = tuple(row)  # listのままではkeyとして使えないのでペアをtupleに変換
        counter[key] += 1  # 数え上げ

これを複数のファイルに対して繰り返せば所望の結果になるかと思います。
ただしアイディアレベルでパフォーマンスは測ってません。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/08/06 09:31

    その後結局ファイル読み込みのところでもpythonが落ちる事態になってしまったので、非常に助かりました。ありがとうございます。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 89.08%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る