回答編集履歴
1
変更
answer
CHANGED
@@ -1,6 +1,6 @@
|
|
1
1
|
最後は人手で手間(コスト)をかけて洗うことになると思いますが、できるだけ手間を省く方法を。
|
2
2
|
0. Group*が入っているデータは除去(そのまま決定)
|
3
|
-
1. 大文字が含まれる文字列だけR.shigemoriさんの方法で都市名かどうか判定。googleのAPI(Geocoderはこれのラッパーのはず)を使うならある程度は情報を投げてくれるはずなので、明らかに都市名ではないもの(道路の名前、お店の名前など)は省けると思います。
|
3
|
+
1. 大文字が含まれる文字列だけ(この辺りの工夫は任意。APIに投げられる回数の制限等があるかどうかにも関わってくるので、それに応じて適当に決めてください)R.shigemoriさんの方法で都市名かどうか判定。googleのAPI(Geocoderはこれのラッパーのはず)を使うならある程度は情報を投げてくれるはずなので、明らかに都市名ではないもの(道路の名前、お店の名前など)は省けると思います。
|
4
4
|
2. 方針1か2のどちらか、あるいは別の方法。方法1と2は適当に思いついたものを書いただけです。工夫の余地は色々あると思います。
|
5
5
|
方針1:
|
6
6
|
重複除去して人手で洗い、都市名として取り扱うリストを作成。これをやるかどうかは任意です。明らかに重複が大量にあるならやる価値はあるかもしれません。
|