二つのファイルの要素を比較しています.
ファイルAはとにかく大きい(10GB前後),ファイルBは400件程度の要素が存在します.
Aには要素の被りがありますが,Bにはありません.
Aの中からBを探し,Bが出現頻度を算出することが目的です.
現在,どちらのファイルもl読み込み,比較していき,
要素が一致すれば出力(ファイルに書き出し)という手順で行っています.
出現頻度は後から・・と考えています.
python
1 2sys.stdout=open('hoge.txt','w') 3for row in csv.reader(open('B.csv','r'),delimiter='\t'): 4 for row2 in csv.reader(open('A.csv','r'),delimiter='\t'): 5 if (row[0]==row2[0]): 6 print(row2[0]+'\t'+row2[2]+'\t'+row2[4]); 7sys.stdout.close() 8sys.stdout=sys.__stdout__
これで動いてはいるのですが非常に時間がかかり困っています.
高速化する方法はないでしょうか.
回答5件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。