python ファイル読み込み並べ替え

Question

### 前提・実現したいこと

現在pythonを用いてデータの分析を行っています。今回、自分では難しくてコードを書くのにつまってしまう事態が発生したので質問させていただきます(調べたりしたのですがどうにも無理でした、、)
あるファイル(大量のデータ)を読み込み、いくつかの項目に着目し、ランキング付けして別のファイルに書き込むということを行いたいです。

### 発生している問題・エラーメッセージ
いくつもの項目を同時にみるというコードの書き方ができずに、１つの項目のみにしか着目できませんでした。ここからの改善点をおしえていただきたいです。

(読み込むファイル)
１      ２       ３     ４     ５
123/t  12345/t  4786/t 1564/t 7045
145/t  12349/t  4786/t 1567/t 7896
149/t  12351/t  4790/t 1546/t 8967
186/t  12356/t  4786/t 1589/t 8564
123/t  12378/t  4790/t 1544/t 8496

このようにタブ区切りで５つの項目が並べられているファイルがあります(データ数多い)
これを順番にみていきます。
１項目目をIDとします。
まず、1列目の3項目目に着目し、他の列の３項目目と比較し、同じものがあればそれらの4項目目を比較します。1列目の４項目目を基準に比較してそれより他が大きければその列のIDを+1,小さいもしくは同じならばそのままにします。
これをすべての列に対して行いたいです。
最後は数値が多い順にランク付けします。

つまり書き出すコードとしてはこの場合以下のようにしたいです。
1 123 3
2 145 1
(０回は表示しない)
これは別のファイルに書きたいです。



### 該当のソースコード

```python
ファイルよみこみ

id_count=｛｝
lineN = 0
for line in f(よみこみファイル)
 inputs = line.split("	")
 if len(inputs) != 5
   continue

 if (id_count.has-key(inputs[1])):
   id_count[inputs[1]] += 1
 else:
   id_count[inputs[1]] = 1

```
このようなソースコードまで書けましたが、これは
私がやりたい項目比較を満たせていません。
パソコンからなぜか質問ができず、スマホから打っているため見ずらかったら申し訳ありません。

###
質問が分かりにくく申し訳ありません。
ご回答していただければ幸いです。よろしくお願いします。

Accepted Answer

**パフォーマンスは意識せずに**ロジックを書いたコード。

```python
from collections import defaultdict

data = [[123, 12345, 4786, 1564, 7045],
        [145, 12349, 4786, 1567, 7896],
        [149, 12351, 4790, 1546, 8967],
        [186, 12356, 4786, 1589, 8564],
        [123, 12378, 4790, 1544, 8496]]

d = defaultdict(int)
for line_a in data:
    for line_b in data:
        if line_a is line_b:  # これ別になくてもいいかな・・・
            continue
        else:
            if line_a[2] == line_b[2]:
                if line_a[3] < line_b[3]:
                    d[line_a[0]] += 1

for i, (k, v) in enumerate(sorted(d.items(), key=lambda x:x[1], reverse=True)):
    print(i+1, k, v)
""" =>
1 123 3
2 145 1
"""
```

データ量`n`として`O(n^2)`の計算量ですね。

Answer

単純に実装すると毎回全要素を比較しなければならないため、効率が非常に悪いです。
特にデータのサイズが1万行を超えるのですから、この悪効率は無視できません。

データを全て読み取って操作すると効率が良くなります。
しかし、効率の代償として今度はメモリが圧迫されます。これも無視できません。

---
ここで生まれる折衷案は、**前以てファイルを分割すること**です。
扱いやすく分割するには、3項目目をカギにして分類すれば良いことに気付きます。

10から100ほどのファイルに分割できるような分類方法を考えてください。

---
データが全部読み取れるなら、こんな感じで書けます。
```Python
from collections import Counter
import pandas as pd


with open('src.csv') as fin:
    df = pd.read_csv(
        fin, header=None, delim_whitespace=True
    )

id_count = Counter()
for _, group in df.groupby(2):
    group = group.sort_values(by=3, ascending=False)
    
    for i, (_, series) in enumerate(group.iterrows()):
        idd, *_ = series
        id_count[idd] += i

it = enumerate(id_count.most_common(), start=1)
for i, (key, value) in it:
    if value == 0:
        break
    
    print(i, key, value)
```

pandasは書きなれていないので、多少ダサいコードだとは思います。

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

関連した質問