複数CSVを比較して重複行のリストを作成したい

Question

### 実現したいこと
### 前提条件
Powershellを使用
CSVは同一フォルダに格納
各CSVは列数が異なるが、キー項目のインデックスは同じ
CSVのサイズは最大6GBほど

### 実現したいこと
csvファイル)
A、B、C、D、E
csv記載例）
A列、B列、**名前**、**生年月日**、住所、**郵便番号**......

各CSVを比較し、キー項目(名前、生年月日、郵便番号)が重複している項目を抽出し、リスト化したい
全CSV間での重複結果が必要なため、総当たりになると考えている。
比較パターン)
A-B B-C C-D D-E
A-C B-D C-E
A-D B-E
A-E

### 発生している問題・分からないこと
sort -Unique等での実装を考えたが、CSVの容量が重く実装が難しかった。
0. 番号リストimport-csvで読み込もうとしたところでメモリ不足が発生して処理が行えない
1.sort -Uniqueは重複を削除してしまい、今回得たい結果とは異なるので断念。

単純なスキル不足から実装方法が見えてこない。

### 該当のソースコード

```PowerShell
#比較するCSVらがあるフォルダ
$work_path = "C:\重複リスト出力\データ"
$work_path2 = "C:\重複リスト出力\キーファイル\keyFile.csv"
$work_path3 = "C:\重複リスト出力\結果\重複リスト.csv"
Set-Location -Path $work_path

#作業フォルダ内で拡張子が.csvのみのファイルをフィルターして取得
$csv_files = Get-ChildItem -File -Filter *.csv

#キーファイル作成
$keyfiles = @()
$duplicate_list = @()
$headers = @('KDB個人番号','氏名_カナ','生年月日','郵便番号')

Write-Host $csv_files

foreach($csv_file in $csv_files){
    
    #CSV読み込み
    $path = Join-Path $work_path $csv_file
    $csvdata = Import-Csv $Path -Encoding unicode

if(Test-Path $work_path2){
        $keyfiles = Import-Csv $work_path2 -Encoding unicode
    }
    #レコード分ループ
    foreach($row in $csvdata){

#判定
        $newdata = $keyfiles | Where-Object {($_.氏名_カナ -eq $row.氏名_カナ) -and ($_.生年月日 -eq $row.生年月日_西暦) -and ($_.郵便番号 -eq $row.郵便番号)}
        if($newdata.Count -eq 0){

#重複していないデータの場合、キーファイルに追加
            $record = New-Object PSObject | Select-Object $headers
            $record.KDB個人番号 = $row.KDB個人番号
            $record.氏名_カナ =  $row.氏名_カナ
            $record.生年月日 = $row.生年月日_西暦
            $record.郵便番号 = $row.郵便番号
            $keyfiles += $record
        }else{

if(($duplicate_list | Where-Object {($_.氏名_カナ -eq $row.氏名_カナ) -and ($_.生年月日 -eq $row.生年月日_西暦) -and ($_.郵便番号 -eq $row.郵便番号)}).Count -eq 0){

#既にキーファイルに存在するかつ重複リストに存在しない場合、重複リストに追加
                $record = New-Object PSObject | Select-Object $headers
                $record.KDB個人番号 = $row.KDB個人番号
                $record.氏名_カナ =  $row.氏名_カナ
                $record.生年月日 = $row.生年月日_西暦
                $record.郵便番号 = $row.郵便番号
                $duplicate_list += $record

}

}
        #CSV読み終わるごとにCSV出力(メモリ削減のため)
        $keyfiles | Export-Csv -Encoding unicode -NoTypeInformation -Path $work_path2
}

#重複リストに出力
$duplicate_list | Export-Csv -Encoding unicode -NoTypeInformation -Path $work_path3
```

### 試したこと・調べたこと
- [x] teratailやGoogle等で検索した
- [ ] ソースコードを自分なりに変更した
- [ ] 知人に聞いた
- [ ] その他

##### 上記の詳細・結果
PowerShellでの重複削除方法
sort -Unique等で重複を削除できることは分かったが、今回は重複データを消したいわけではないため
成果は得られなかった

### 補足
特になし

Accepted Answer

**2024-02-26 訂正あり**
___
Import-CSVコマンドレットでCSVファイル全部を読み込んで処理しようとすると、メモリ不足になって失敗するということですね。

であれば、CSVファイルを少しずつ読み込んで処理できる方法を考えなければなりません。理想は一度に1レコード (1行) しか読み込まないことです。

以下、それを実現する方法の一案です。なお以下では、個々のCSVファイルにはキーの重複はないものとします。

___
まず、複数のCSVファイルの内容をまとめてキーのフィールドでソートします。

sortコマンドでは特定のフィールドでソートすることはできませんから工夫が必要ですね。たとえばキーフィールドをレコードの先頭に持ってくれば、キーでソートできます。

X-key.csv
```
“差之 寸世蔵”,”2001-03-11”,”9862200”,...
“阿以 宇江雄”,”1970-01-01”,”5010634”,...
“加幾 久計子”,”1989-11-09”,”0850245”,...
```
Y-key.csv
```
“ラリー ルレロ”,”2011-09-01”,”5010634”,...
“差之 寸世蔵”,”2001-03-11”,”9862200”,...
“耶 由代”,”2023-04-25”,”0850245”,...
```
``` ps1
sort.exe XY-key.csv > XY.csv
```

なお、XY-key.csvは上のX-key.csv、Y-key.csv、…の内容を連結したものです。連結の順番は問いませんし、ファイルの数も自由です。

sortコマンドはメモリ不足にならないのか心配でしょうか。sortコマンドはすべてのレコードを一度にメモリ上でソートできない場合、データを小部分に分けてソートした結果を一時的にディスクに保存しその後マージすることで、メモリ不足を起こさずにすべてのレコードがソートされた結果を出力します (詳しくは[sortコマンドの文書](https://learn.microsoft.com/ja-jp/windows-server/administration/windows-commands/sort)を参照)。

※拡張子なしのsortを実行するとsortコマンドの代わりにSort-Content コマンドレットが実行されてしまうので、sort.exeとして実行する必要があります。

さて、ソートの結果できるファイルはこんなふうになります (名前のソート結果が実際とはちがうかもしれませんが、例ということで)。
XY.csv
```
“ラリー ルレロ”,”2011-09-01”,”5010634”,...
“阿以 宇江雄”,”1970-01-01”,”5010634”,...
“加幾 久計子”,”1989-11-09”,”0850245”,...
“差之 寸世蔵”,”2001-03-11”,”9862200”,...
“差之 寸世蔵”,”2001-03-11”,”9862200”,...
“耶 由代”,”2023-04-25”,”0850245”,...
```
レコードがキーの順に並んでいるため、キーが重複したレコードがあれば続けて出力されます。したがって、最初から1レコードずつ読み取っていき、同じキーのレコードが続いたら重複キーの行として出力すればいいです。この処理に必要なメモリの量は、ひとつ前のレコードと次のレコードの分だけです。

実際のコードは考えてみてください。

___
なお、上記の方式ではメモリの使用量は抑えられますが、処理中に一時的に使用されるディスクの空き容量を考慮しなければなりません。
*   キーフィールドがレコードの最初にくるCSVファイル。元のCSVファイルと同じ大きさです。
*   sortコマンドが作成する一時ファイル。ソート対象のCSVファイルの総量と同じくらいで、多くても2倍を超えることはないでしょう。
* ソート結果のファイル。元のCSVファイルの総量と同じ大きさです。

これらのファイルは最終的な出力が得られれば必要なくなるため削除できますが、作業のためには元のCSVファイルの総量の3倍から4倍の空きディスク容量が必要だということになります。

Answer

回答を削除します
```PowerShell
```

Answer

- キーが(名前、生年月日、郵便番号)
- 値が「ファイルや行位置＝リスト出力したい情報」
である辞書を作成すればよいでしょう。
このような辞書を利用すれば、総当たりの必要はなく、おおむね以下のような処理をすればよいと思います。
```
CSVファイルループ
    CSV行ループ
        その行のキーが辞書に存在する
            値（＝最初に出現した情報）がある
                値を出力して、辞書の値だけを空にする
            この行の情報を出力する
        存在しない
            このファイル、行に関する情報を辞書に追加する
```

実現したいこと

前提条件

実現したいこと

発生している問題・分からないこと

該当のソースコード

試したこと・調べたこと

上記の詳細・結果

補足

関連した質問