###前提・実現したいこと
現在、約200万件のcsv2つがあり、2つのcsv同士の比較を行なっております。
ただ、データが大量あることで、抽出に時間がかかっており、高速に抽出出来る方法を探しています。
###該当のソースコード
抽出対象となるデータとしては下記になり、
下記Aのcsv_a_idがcsvBのcsv_b_idとマッチしないデータを抽出します。
テーブル名 csvA
カラム名 csv_a_id
テーブル名 csvB
カラム名 csv_b_id
###試したこと
行なってみた方法としまして、mysqlにそれぞれテーブルとしてデータを作り、left joinを行ないwhereで抽出をしておりました。
・mysqlのコマンド
select csv_a_id FROM csvA left join csvB using(csv_b_id) where csvB.csv_b_id is null
INTO OUTFILE "/tmp/diff_result.csv"
FIELDS TERMINATED BY ',';
###補足情報(言語/FW/ツール等のバージョンなど)
mysql
回答1件
あなたの回答
tips
プレビュー