jsoupを使ってhtmlをスクレイピングしています。
下記のようなコードを実行したのですが、結果が
想定と異なってしまいます。
java
1Elements elements = document.getElementsByClass("ently_text"); 2Elements test = elements.select("span"); //スパンタグ抽出
読み込むhtml例
<span>asfsdfsdf
<span>aaa</span>
<span>bbb</span>
<span>ccc</span>
<span>ccc</span>
<span>ddd</span>
<span>eee</span>
</span>
実行結果
期待した結果
[要素0] asfsdfsdf<span>aaa</span><span>bbb</span><span>ccc</span><span>ccc</span><span>ddd</span><span>eee</span>
[要素1]aaa
[要素2]bbb
[要素3]ccc
[要素4]ccc
[要素5]ddd
[要素6]eee
現実
[要素0]asfsdfsdf<span>aaa</span><span>bbb</span><span>ccc</span><span>ccc</span><span>ddd</span><span>eee</span>
[要素1]aaa
[要素2]bbb
[要素3]ccc
[要素4]ddd
[要素5]eee
となってcccが1つ飛んでしまいます。
selectはどうも中身が同一のものが連続すると無視されてしまうようなのですが、どうにもならないでしょうか?
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2016/02/23 11:53