前提・実現したいこと
氏名住所等が記載されている2つのデータベースがあり、
両方とも英字で表記されています。
2つのデータベースに記載されている人物について、住所氏名が一致し、
同一人物かどうかを判定したいのですが、それぞれのデータベースで表記の揺らぎが
あります。(例:ヨシダ ショウタロウの場合→Yoshida Shotaro と Yoshida Syoutaro)
そこで、表記が異なっても、同姓同名、同一住所であると判定するため、
pythonでジャロウィンクラー距離を使って類似度を出したうえで、
氏名・住所が一定の類似度以上のものを抽出したいと考えています。
現在データベースはエクセルデータとして保存されており、総データ数は数十万件あります。
エクセルデータからpythonのジャロウィンクラー距離を使用して類似度を判定し、
判定した類似度をエクセルデータに自動で入力し、数十万件のデータから氏名住所の類似度が一定以上
のものだけを抽出できればと思っております。
pythonはダウンロードし、pythonのidle上ではジャロウィンクラー距離の処理ができる状態ですが、
エクセルとの連動させて処理する方法がわかりません。
どなたかお教えいただけませんでしょうか。
よろしくお願いいたします。
発生している問題・エラーメッセージ
エラーメッセージ
該当のソースコード
ソースコード
試したこと
pythonのidle上では下記のように記述し、類似度が出せています。
import Levenshtein
print (Levenshtein.jaro("Yoshida Shotaro", "Yoshida Syoutaro"))
0.9361111111111112
補足情報(FW/ツールのバージョンなど)
ここにより詳細な情報を記載してください。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/10/24 12:15
2018/10/29 16:33
2018/10/30 03:39 編集
2018/10/30 07:00