前提・実現したいこと
複数の住所のパターンをもっている場合に、同一の判定を行うのに適した方法のアドバイスを頂きたいです。
そもそもこういうことが可能なのかも分からないため、こんな方法(ライブラリ)がいいんじゃないのとか、そもそもこんなの無理だよなど、何でも意見を頂ければと思います。
複数の住所データは下記テーブルのようになっていて、
・情報の深さ(建物名や国名)が異なる
・国ごとに番地の位置が異なる
というような特徴があります。
国 | 住所1 | 住所2 | 住所3 | 住所4 |
---|---|---|---|---|
GR | 7 Mousson Street | 7 Mousson Street Athens GRC | Mouson 7 Athens Greece | Mouson 7 Athens |
CA | 1316 33 Street NE | 1316 33 St NE Calgary CAN | 1316 33rd Street Northeast Calgary (AB) Canada | 1316 33 St Ne Calgary |
FR | 27, rue de la Tour-d'Auvergne, 9th arr. | 27- rue de la Tour-d'Auvergne- 9th arr. Paris FRA | 27 rue de la Tour d'Auvergne Paris France | 27 rue de la Tour d'Auvergne Paris |
CO | Calle 34 No 31-24 | Calle 34 No 31-24 Bucaramanga COL | Calle 34 No. 31 -24 Bucaramanga Colombia | Calle 34 No. 31 -24 Bucaramanga |
検討したこと
・Googleマップから緯度経度の情報を見る
→緯度経度では近接した住所を区別できない
→とりあえず言語的なアプローチができないか検討したい
・Fuzzywuzzyライブラリを用いた数値的な比較
→比較方法がレーベンシュタイン距離(文字列での比較)なので、言葉の意味を考慮した比較ができない
・Word2Vec
→住所の比較で精度がどの程度出るのか不明(ただの知識不足です)
・国ごとに住所の並び順を調べ、番地と道路名(都市名)のみを用いて比較をする
→表の1行目のように、番地の位置がばらばらなデータがある。また、工数がかなりかかる
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/05/13 03:35
2019/05/14 13:17