今回やりたいことは、二つの文書ファイルがあり、同じ文書かどうかを判断したいです。
例えば以下の文書ファイル
txt
1コード 2Appleは1976年4月1日にスティーブ・ジョブズ、スティーブ・ウォズニアック、ロナルド・ウェイン(英語版)の3人で設立され、 3ウォズニアックが開発したパーソナルコンピュータ、Apple Iを開発・販売していたが、 4ウェインは12日以内に自分の持ち分をジョブズとウォズニアックに売り戻した[19][20]。 5ジョブズのガレージは製造したコンピュータの動作確認や納品のために使用されていた [21][22]。 6
txt
1コード 2Apple(アップル)は1976/4/1/にスティーブ・ジョブズ、スティーブ・ウォズニアック、ロナルド・ウェイン(英語版)の3人で設立され、 3ウォズニアックが開発したパーソナルコンピュータ、Apple Iを開発・販売していたが、 4(中略) 5ジョブズのガレージは製造したコンピュータの動作確認や納品のために使用されていた [21][22]。 6
二つの文書ファイルの文書の内容は同じですが、たまに(中略)や振り仮名や日付の書き方が違っていたりします。
このような文書が大量の文書ファイルの中に混じっている可能性があるので、それを抽出したいと考えています。
今考えている解決方法
ファイル1の文書を5文字ごとに分割して、ファイル2の文書にその5文字の文字列がマッチするかどうかを確認し、マッチする割合を算出します。
これを大量の文書ファイルで網羅的にやろうと思うのですが、どうでしょうか。
もっと良い方法があったら教えてください。よろしくお願いいたします。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。