質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
GIS

GISとは、地理情報システムの略称です。位置・空間などの様々なデータをコンピュータを使用して加工・管理することで、情報の分析や解析を行ったり、視覚的に表示します。行政や市民生活、ビジネスなどで利用されており、活用範囲が広がっています。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

データマイニング

データマイニングは、購買履歴やクレジットカードの利用履歴、電話の通話履歴など企業にある大量のデータを解析して、その中に隠れたパターンやルールを探し出す技術です。DMと略されることもあります。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

Q&A

解決済

1回答

2080閲覧

複数パターンの住所の一致判定

hen

総合スコア11

GIS

GISとは、地理情報システムの略称です。位置・空間などの様々なデータをコンピュータを使用して加工・管理することで、情報の分析や解析を行ったり、視覚的に表示します。行政や市民生活、ビジネスなどで利用されており、活用範囲が広がっています。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

データマイニング

データマイニングは、購買履歴やクレジットカードの利用履歴、電話の通話履歴など企業にある大量のデータを解析して、その中に隠れたパターンやルールを探し出す技術です。DMと略されることもあります。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

0グッド

0クリップ

投稿2019/05/09 09:18

編集2019/05/09 12:49

前提・実現したいこと

複数の住所のパターンをもっている場合に、同一の判定を行うのに適した方法のアドバイスを頂きたいです。
そもそもこういうことが可能なのかも分からないため、こんな方法(ライブラリ)がいいんじゃないのとか、そもそもこんなの無理だよなど、何でも意見を頂ければと思います。

複数の住所データは下記テーブルのようになっていて、
・情報の深さ(建物名や国名)が異なる
・国ごとに番地の位置が異なる
というような特徴があります。

住所1住所2住所3住所4
GR7 Mousson Street7 Mousson Street Athens GRCMouson 7 Athens GreeceMouson 7 Athens
CA1316 33 Street NE1316 33 St NE Calgary CAN1316 33rd Street Northeast Calgary (AB) Canada1316 33 St Ne Calgary
FR27, rue de la Tour-d'Auvergne, 9th arr.27- rue de la Tour-d'Auvergne- 9th arr. Paris FRA27 rue de la Tour d'Auvergne Paris France27 rue de la Tour d'Auvergne Paris
COCalle 34 No 31-24Calle 34 No 31-24 Bucaramanga COLCalle 34 No. 31 -24 Bucaramanga ColombiaCalle 34 No. 31 -24 Bucaramanga

検討したこと

・Googleマップから緯度経度の情報を見る
→緯度経度では近接した住所を区別できない
→とりあえず言語的なアプローチができないか検討したい

Fuzzywuzzyライブラリを用いた数値的な比較
→比較方法がレーベンシュタイン距離(文字列での比較)なので、言葉の意味を考慮した比較ができない

・Word2Vec
→住所の比較で精度がどの程度出るのか不明(ただの知識不足です)

・国ごとに住所の並び順を調べ、番地と道路名(都市名)のみを用いて比較をする
→表の1行目のように、番地の位置がばらばらなデータがある。また、工数がかなりかかる

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

ちょうど日本の住所で同じことしました(´;ω;`)

結論としては人力です。私も、レーベンシュタイン距離・Word2Vecなどのアルゴリズムを検討しましたが、人力でルールを作る方法が一番正確という結論に至りました。

順序としては下記です。(日本住所版)

・日本の住所データベースを取得する。
・番地以外住所文字列についての表記ゆれをデータベースを参照しながら補正する。
・番地部分は半角数字に直し、正規表現で一致判定をする

投稿2019/05/13 03:33

yamato_user

総合スコア2321

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

yamato_user

2019/05/13 03:35

GoogleMapAPIに住所文字列投げたら、補正した住所文字列返してくれる機能ありますが、日本版の場合は自作したほうが精度良かったイメージです。ただ、世界版となると自作厳しいでしょうから、GoogleMapAPIに住所文字列投げて、補正してもらった後に番地部分の一致判定したほうがいいかもです
hen

2019/05/14 13:17

ご回答ありがとうございます! 私も同様に人力で揺らぎ等の対応をすることに致しました… GoogleMapAPIも課金額が膨大になってしまうほどのデータ量になるので、逐一目でチェックしながらfuzzywuzzyの類似度を上げる方向で頑張ろうと思います。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問