teratail header banner
teratail header banner
質問するログイン新規登録

回答編集履歴

1

変更

2018/04/25 02:27

投稿

hayataka2049
hayataka2049

スコア30939

answer CHANGED
@@ -1,6 +1,6 @@
1
1
  最後は人手で手間(コスト)をかけて洗うことになると思いますが、できるだけ手間を省く方法を。
2
2
  0. Group*が入っているデータは除去(そのまま決定)
3
- 1. 大文字が含まれる文字列だけR.shigemoriさんの方法で都市名かどうか判定。googleのAPI(Geocoderはこれのラッパーのはず)を使うならある程度は情報を投げてくれるはずなので、明らかに都市名ではないもの(道路の名前、お店の名前など)は省けると思います。
3
+ 1. 大文字が含まれる文字列だけ(この辺りの工夫は任意。APIに投げられる回数の制限等があるかどうかにも関わってくるので、それに応じて適当に決めてください)R.shigemoriさんの方法で都市名かどうか判定。googleのAPI(Geocoderはこれのラッパーのはず)を使うならある程度は情報を投げてくれるはずなので、明らかに都市名ではないもの(道路の名前、お店の名前など)は省けると思います。
4
4
  2. 方針1か2のどちらか、あるいは別の方法。方法1と2は適当に思いついたものを書いただけです。工夫の余地は色々あると思います。
5
5
  方針1:
6
6
  重複除去して人手で洗い、都市名として取り扱うリストを作成。これをやるかどうかは任意です。明らかに重複が大量にあるならやる価値はあるかもしれません。