急ぎにつき乱文失礼します。
複数のテキストファイルから、重複している行を削除し、一意にしたいのですが、どのような方法があるでしょうか?
例としては以下になります。
・テキストファイルA.txt あああ あああ いいい いいい ううう ううう ・テキストファイルB.txt あああ あああ いいい おおお えええ えええ
この内、両ファイルで重複している「あああ あああ」の行を片方削除したいです。
また、「いいい いいい」と「いいい おおお」の行は一部文字列が異なりますが、これも重複行としてカウントし、片方削除したいです。
よろしくお願いします。
追記です
>また、「いいい いいい」と「いいい おおお」の行は一部文字列が異なりますが、これも重複行としてカウントし、片方削除したいです。
これについての重複と判断するルールです。
以下のようにコロンで区切られていて前半だけ一致して後半が一致していない場合でも重複としてカウントしたいです。
いいい:いいい
いいい:おおお
ただし、以下のようにコロンで区切られた文字が2~7組で可変する可能性があります。
これらを全て重複としてカウントしたいです。
いいい:いいい
いいい:いいい:おおお
いいい:いいい:えええ:おおお
両方のファイルの内容を、Excelの2枚のシートに入れて、match関数などで重複を探す方法が使えそうな気がします。但し、「いいい いいい」と「いいい おおお」を重複と見なすといった特殊な判断には既存の関数で対応できないかもしれません。(重複と判断するルールが明記されていないので、検討することが出来ません)
ありがとうございます。重複のルールについて追記しました
重複している場合、どちらのファイルにある行を削除しますか (前、後、どちらでもいい、その他)。また、重複削除したあとの行はどういう順序で並べればいいですか (ソートする、どうでもいい、その他)。
ご返信ありがとうございます。削除する行は後、削除したあとの順序はとくに指定はありません
回答4件
あなたの回答
tips
プレビュー