AndroidアプリのJavaの正規表現でHTMLソースから住所を抜き出したい

###前提・実現したいこと
今目的のページのURLからHTMLソースを取得し、そこからそのページに書かれている住所の取得をしたく奮闘しているところです。
目的のページは各自治体の避難場所の住所が記載されているページから住所を抜き出したいと考えています。
住所を抜き出す方法として、正規表現を用いているのですが、いまいちうまく取得できません。
重複して取得されたり、必要ない部分まで取得されます。
避難場所の記載方法には大きく分かれて、住所を記載しているか、名称を記載しているかに分かれます。
それをカバーするために、住所を取得するパターンと名称を取得するパターンで分けています。
名称で取得するパターンでは、避難場所に指定されやすい「大学」「公園」などのキーワードをパターンに指定して取得しています。
現状のマッチパターンは下のとおりです。

String pattern2 = ">.?(.+?[都道府県])?([ァ-ン一-龥].+?郡.+?[町村]|[ァ-ン一-龥].+?市.+?区|[ァ-ン一-龥].?[市区町村])(.+)(\d+|.+?丁目)(-\d+|(.+?番地|.+?番))(.+)(-\d+|.+?号)?<";

String pattern1 = "(<.*?>|[0-9０-９]|.|-|．|ー).*?(.*?公園|[ァ-ン一-龥]*?大学|[ァ-ン一-龥]*?小学校|[ァ-ン一-龥]*?中学校|[ァ-ン一-龥]*?高校|[ァ-ン一-龥]*?高等学校|[ァ-ン一-龥]*?施設|[ァ-ン一-龥]*?体育館)";

このパターンで、

while (m.find()){
Log.d("test",m.group(2));
}

このように現状取得しています。

###発生している問題・エラーメッセージ

現状の問題は、住所のほうでの取得はまず、住所自体がうまく取れ無かったり、必要の無い文字が入っていたりします。
名所の方では重複して全ての住所が2．3回取得されてしまいます。

きれいに取得する方法や、パターンがあればぜひお教え願いたいです。
よろしくお願いいたします。

退会済みユーザー

2017/01/06 10:31

どのページからとってん

W.Taka

2017/01/06 10:34

http://www.city.shinjuku.lg.jp/anzen/file03_00022.html　や　http://www.city.tama.lg.jp/anshin/3919/021948.html　このような場所です。

行動規範の内容に同意します

回答1件

ベストアンサー

前処理としてHTMLタグを除去して、本文から住所を抜き出した方が綺麗にできると思いますね。

Java
1	static final String regex = ".*?(([ァ-ン一-龥]+?[都道府県])?([ァ-ン一-龥]+?郡[ァ-ン一-龥]+?[町村]|[ァ-ン一-龥]+?市[ァ-ン一-龥]+?区|[ァ-ン一-龥]+?[市区町村])(.*?)(\\d+|.+?丁目)(-\\d+|(.+?番地|.+?番))(.*?)(-\\d+|.+?号)?|[ァ-ン一-龥]*?公園|[ァ-ン一-龥]*?大学|[ァ-ン一-龥]*?小学校|[ァ-ン一-龥]*?中学校|[ァ-ン一-龥]*?高校|[ァ-ン一-龥]*?高等学校|[ァ-ン一-龥]*?施設|[ァ-ン一-龥]*?体育館)";
2
3	static final Pattern pattern = Pattern.compile(regex);
4
5	static ArrayList<String> extractAddressesFromHtml(String html) {
6
7		ArrayList<String> addressList = new ArrayList<>();
8
9		Matcher matcher = pattern.matcher(html);
10
11		while (matcher.find()) {
12			String address = matcher.group(1);
13			addressList.add(address);
14		}
15
16		return addressList;
17	}
18
19	static void print(List<String> addressList) {
20		if (addressList.isEmpty()) {
21			System.err.println("No Addresses");
22			return;
23		}
24
25		for (String address : addressList) {
26			System.out.println(address);
27		}
28	}
29
30	public static void main(String[] args) {
31
32		// HTMLタグ除去後の文字列を渡す。
33		print(extractAddressesFromHtml("連光寺小学校〒160-8484東京都新宿区歌舞伎町1-4-1 所在地：多摩市桜ヶ丘1-17-7 東京都多摩市関戸6-12-1"));
34	}