お世話になります。
現在、JAVAでjsoupライブラリを使ってWebスクレイピングを行っています。
具体的にはWikiページの特定の<ul>タグ内にあるリンクURLを取得して配列に取りこみたいと考えています。
URLの取得は成功したのですが、一つの<li>タグ内に複数のリンクURLがある場合には先頭のURLだけを取得したいのです。
例:
html
1<ul id="hoge"> 2 <li><a href="URL_1">URL_1</a></li> 3 <li><a href="URL_2">URL_2</a>"("<a href="URL_2_2">URL_2_2</a>")"</li> 4 <li><a href="URL_3">URL_3</a></li> 5 <li><a href="URL_4">URL_4</a>"("<a href="URL_4_2">URL_4_2</a>")"</li> 6</ul> 7```URL_2_2、URL_4_2は取得しなくて良い 8 9--- 10 11現在実装しているURL取得のJavaのコードです。 12```Java 13 Document doc = Jsoup.connect(HTTP_URL_MAIN).get(); 14 15 Elements wikiUrl = doc.getElementById("hoge").select("[href]"); 16 17 for(Element element: wikiUrl){ 18 System.out.println(element); 19 }
上記コードでは当然、すべてのURLを取得してしまいます。
説明不足で分かりづらいところがあれば申し訳ないのですが、何か良い方法はありませんでしょうか。
ご教授いただければと思います。よろしくお願いいたします。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。