同じ文書ファイルか判断したい、(追加情報が入ったりしているが)

今回やりたいことは、二つの文書ファイルがあり、同じ文書かどうかを判断したいです。
例えば以下の文書ファイル

txt
1コード
2Appleは1976年4月1日にスティーブ・ジョブズ、スティーブ・ウォズニアック、ロナルド・ウェイン（英語版）の3人で設立され、
3ウォズニアックが開発したパーソナルコンピュータ、Apple Iを開発・販売していたが、
4ウェインは12日以内に自分の持ち分をジョブズとウォズニアックに売り戻した[19][20]。
5ジョブズのガレージは製造したコンピュータの動作確認や納品のために使用されていた [21][22]。
6

txt
1コード
2Apple(アップル)は1976/4/1/にスティーブ・ジョブズ、スティーブ・ウォズニアック、ロナルド・ウェイン（英語版）の3人で設立され、
3ウォズニアックが開発したパーソナルコンピュータ、Apple Iを開発・販売していたが、
4(中略)
5ジョブズのガレージは製造したコンピュータの動作確認や納品のために使用されていた [21][22]。
6

二つの文書ファイルの文書の内容は同じですが、たまに(中略)や振り仮名や日付の書き方が違っていたりします。
このような文書が大量の文書ファイルの中に混じっている可能性があるので、それを抽出したいと考えています。

今考えている解決方法
ファイル1の文書を5文字ごとに分割して、ファイル2の文書にその5文字の文字列がマッチするかどうかを確認し、マッチする割合を算出します。
これを大量の文書ファイルで網羅的にやろうと思うのですが、どうでしょうか。
もっと良い方法があったら教えてください。よろしくお願いいたします。

行動規範の内容に同意します

回答3件

■R 言語
何ができればゴールなのか分かりませんでしたが、
文書の同一性のみ確認したいなら全文を丸ごと文字列型にし比較演算子を利用すればよい。

どこが差分違うのか、差分が見たいなら以下が参考になるでしょう。
https://www.karada-good.net/analyticsr/r-325/

投稿2022/01/11 05:00

編集2022/01/11 05:02

haihaikazuma

総合スコア181

difflibを使うと楽だと思います。
参考：PythonでDiff
あるいはfilecmpでもよいかもしれません。

投稿2022/01/11 04:56

8524ba23

総合スコア38341

spaCy · Industrial-strength Natural Language Processing in Python を利用すると良いかもしれません(warning message が表示されますけれども)。

sh
1$ pip3 install spacy
2$ python3 -m spacy download ja_core_news_sm

python
1import spacy
2
3text1 = '''
4Appleは1976年4月1日にスティーブ・ジョブズ、スティーブ・ウォズニアック、ロナルド・ウェイン（英語版）の3人で設立され、
5ウォズニアックが開発したパーソナルコンピュータ、Apple Iを開発・販売していたが、
6ウェインは12日以内に自分の持ち分をジョブズとウォズニアックに売り戻した[19][20]。
7ジョブズのガレージは製造したコンピュータの動作確認や納品のために使用されていた [21][22]。
8'''.strip()
9
10text2 = '''
11Apple(アップル)は1976/4/1/にスティーブ・ジョブズ、スティーブ・ウォズニアック、ロナルド・ウェイン（英語版）の3人で設立され、
12ウォズニアックが開発したパーソナルコンピュータ、Apple Iを開発・販売していたが、
13(中略)
14ジョブズのガレージは製造したコンピュータの動作確認や納品のために使用されていた [21][22]。
15'''.strip()
16
17nlp = spacy.load('ja_core_news_sm')
18
19text1 = nlp(text1)
20text2 = nlp(text2)
21
22print(text1.similarity(text2))
23
24#
25UserWarning: [W007] The model you're using has no word vectors loaded, so the result of the
26Doc.similarity method will be based on the tagger, parser and NER, which may not give useful 
27similarity judgements. This may happen if you're using one of the small models,
28e.g. `en_core_web_sm`, which don't ship with word vectors and only use context-sensitive tensors.
29You can always add your own word vectors, or use one of the larger models instead if available.
30  print(text1.similarity(text2))
31
320.9702315447787564