同じ文書ファイルか判断したい、(追加情報が入ったりしているが)

Question

今回やりたいことは、二つの文書ファイルがあり、同じ文書かどうかを判断したいです。
例えば以下の文書ファイル
```txt
コード
Appleは1976年4月1日にスティーブ・ジョブズ、スティーブ・ウォズニアック、ロナルド・ウェイン（英語版）の3人で設立され、
ウォズニアックが開発したパーソナルコンピュータ、Apple Iを開発・販売していたが、
ウェインは12日以内に自分の持ち分をジョブズとウォズニアックに売り戻した[19][20]。
ジョブズのガレージは製造したコンピュータの動作確認や納品のために使用されていた [21][22]。

```

```txt
コード
Apple(アップル)は1976/4/1/にスティーブ・ジョブズ、スティーブ・ウォズニアック、ロナルド・ウェイン（英語版）の3人で設立され、
ウォズニアックが開発したパーソナルコンピュータ、Apple Iを開発・販売していたが、
(中略)
ジョブズのガレージは製造したコンピュータの動作確認や納品のために使用されていた [21][22]。

```

二つの文書ファイルの文書の内容は同じですが、たまに(中略)や振り仮名や日付の書き方が違っていたりします。
このような文書が大量の文書ファイルの中に混じっている可能性があるので、それを抽出したいと考えています。

**今考えている解決方法**
ファイル1の文書を5文字ごとに分割して、ファイル2の文書にその5文字の文字列がマッチするかどうかを確認し、マッチする割合を算出します。
これを大量の文書ファイルで網羅的にやろうと思うのですが、どうでしょうか。
もっと良い方法があったら教えてください。よろしくお願いいたします。

Answer

[spaCy · Industrial-strength Natural Language Processing in Python](https://spacy.io/) を利用すると良いかもしれません(warning message が表示されますけれども)。

```sh
$ pip3 install spacy
$ python3 -m spacy download ja_core_news_sm
```

```python
import spacy

text1 = '''
Appleは1976年4月1日にスティーブ・ジョブズ、スティーブ・ウォズニアック、ロナルド・ウェイン（英語版）の3人で設立され、
ウォズニアックが開発したパーソナルコンピュータ、Apple Iを開発・販売していたが、
ウェインは12日以内に自分の持ち分をジョブズとウォズニアックに売り戻した[19][20]。
ジョブズのガレージは製造したコンピュータの動作確認や納品のために使用されていた [21][22]。
'''.strip()

text2 = '''
Apple(アップル)は1976/4/1/にスティーブ・ジョブズ、スティーブ・ウォズニアック、ロナルド・ウェイン（英語版）の3人で設立され、
ウォズニアックが開発したパーソナルコンピュータ、Apple Iを開発・販売していたが、
(中略)
ジョブズのガレージは製造したコンピュータの動作確認や納品のために使用されていた [21][22]。
'''.strip()

nlp = spacy.load('ja_core_news_sm')

text1 = nlp(text1)
text2 = nlp(text2)

print(text1.similarity(text2))

#
UserWarning: [W007] The model you're using has no word vectors loaded, so the result of the
Doc.similarity method will be based on the tagger, parser and NER, which may not give useful 
similarity judgements. This may happen if you're using one of the small models,
e.g. `en_core_web_sm`, which don't ship with word vectors and only use context-sensitive tensors.
You can always add your own word vectors, or use one of the larger models instead if available.
  print(text1.similarity(text2))

0.9702315447787564
```

Answer

■R 言語
何ができればゴールなのか分かりませんでしたが、
文書の同一性のみ確認したいなら全文を丸ごと文字列型にし比較演算子を利用すればよい。

どこが差分違うのか、差分が見たいなら以下が参考になるでしょう。
https://www.karada-good.net/analyticsr/r-325/

Answer

[difflib](https://docs.python.org/ja/3/library/difflib.html)を使うと楽だと思います。
参考：[PythonでDiff](https://qiita.com/Pirlo/items/30bcb944682a5c342233)
あるいは[filecmp](https://docs.python.org/ja/3/library/filecmp.html#module-filecmp)でもよいかもしれません。

関連した質問