ファイルに規定されたパターンに一致するcsv行を高速に削除したい

前提・実現したいこと

２つのcsvファイルを比較して、キー(前方複数項目の組み合わせ)の追加削除の差分なのか、キー以外の変更なのか、判定したい

キー部分のみ抽出したファイルのdiff結果(10万行程)をとり、
追加削除の差分行を、比較するcsvファイルから行削除★し、キー追加削除の差分が生じないファイルをつくり、それらのdiffとり、最後にキー部分のみのdiff結果をマージすることで実現しようと考えました

★の部分は、追加差分と削除差分で行削除するcsvファイルを入れ換えてます。★での下記処理が遅く20分程かかってしまいます。高速化する手立てがあれば教えてください

該当のソースコード

bash
1cat del_key.csv | xargs IXXX sed -ie "/^XXX/d" hikakumoto.csv
2

takasima20

2021/05/31 23:19

なんとなくですが、別ファイルに出力すると少しは早くなるかも?

ass777

2021/06/01 00:36

コメントありがとうございますオプションiを削り、別ファイルに出力したのですが、重複行がたくさん出力されていました。なお、処理時間はあまりかわらなかったです

行動規範の内容に同意します

回答2件

# sed 's/^/^/' del_key.csv > del_key.csv2
# grep -v -f del_key.csv2 hikakumoto.csv

とか

投稿2021/06/01 00:05

sigsegv

総合スコア895

ass777

2021/06/01 01:28

コメントありがとうございます。数行のファイルで試したところ正常にできたのですが、5000行のファイルを２つ作り、検索対象に１行だけ正規表現にマッチしない行を入れたところ、何もヒットせずでした。処理時間的には早い気がしますが、レコード数増やすと上手くいかない理由がわかりません。。

sigsegv

2021/06/01 06:23

del_key.csvに空行が含まれていないでしょうか? 質問に書かれたxargsは空行は無視されるみたいですが、上の処理では全部の行にマッチするデータになってしまいます。

行動規範の内容に同意します

PythonやScalaでそれぞれのCSVからキーのセットを作って差集合をとれば追加と削除がとれます。
キー以外の部分は積集合でとれるかと。
試してないですがScalaなら実行時間10秒くらいな気がします。

投稿2021/05/31 22:48

rysh

総合スコア874

ass777

2021/06/01 00:38

コメントありがとうございます。可能な限り、bashのみで実現したいのですが、無理そうなら検討してみます。ありがとうございました

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

ファイルに規定されたパターンに一致するcsv行を高速に削除したい

前提・実現したいこと

該当のソースコード

関連した質問