質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

4回答

1602閲覧

ファイル内要素の比較,抽出(再)

退会済みユーザー

退会済みユーザー

総合スコア0

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2015/09/19 05:13

こちらの質問をさせていただいたものです.
https://teratail.com/questions/16209

ご回答いただいた命令で動いてはいるのですが,
コメントにも書いた通り,億単位の要素を比較しています.

かなり時間がかかってしまい困っているのですが,
うまく処理する方法はないでしょうか.

ご教授願います.

#python3.4
#windows

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

cateye

2015/09/19 10:50 編集

データは降順になっているのでしょうか? それともランダム? 昇順であればかなり早くなると思いますが?
guest

回答4

0

例として両方のファイルがソートされている場合、下記のようにするとより速くなるはずです。

python

1#coding: utf-8 2 3import csv; 4 5rows1=csv.reader(open('data1.txt', 'r')) 6rows2=csv.reader(open('data2.txt', 'r'), delimiter = '\t') 7row1=rows1.next() 8row2=rows2.next() 9while True: 10 if row1[0]<row2[0]: 11 try: 12 row1=rows1.next() 13 continue 14 except: 15 break 16 if row1[0]==row2[0]: 17 print row2[0] + "\t" + row2[1] 18 try: 19 row2=rows2.next() 20 except: 21 break

投稿2015/11/06 15:14

hiro-k

総合スコア902

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

億単位のIDが有るのはファイルAのみですか?ファイルBのみですか?それともファイルA,ファイルB共にですか?

ファイルAが小さくファイルBが大きい場合と、
ファイルAは大きくファイルBが小さい場合とでは、
高速化の手法が異なってきます。

例を見ると、ファイルA,ファイルB,出力と全てがソートされているように見えます。
ファイルAはソートされてますか?
ファイルBはソートされてますか?
出力はソートされている必要は有りますか?
「どちらかがソートされている」「両方がソートされている」「ファイルはソートされていないが出力もソートされる必要が無い」のそれぞれによっても高速化の手法が異なります。

その辺りの情報があれば、より良いアドバイスができるかと思います。

投稿2015/11/06 14:52

hiro-k

総合スコア902

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

grepに任せてしまう。

bash

1sed 's/.*/^&\t/' A > A.tmp #行頭に ^、行末にタブを付加する 2grep -f A.tmp B

投稿2015/09/21 09:35

otn

総合スコア84555

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

何度も同じ処理をするなら
正規化してデータベース(DBMS)に突っ込んでSQLで目的のデータを取り出す方がいいと思います。
最初にデータベースに入れるところで相当時間かかりそうですが。
適切にインデックスつければ目的データの取り出しは早くなると思います。
1回しかやらないことなら気長に待つのもありです。

投稿2015/09/19 13:48

kokardy

総合スコア781

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問