以下のようなHTMLにおいてコメント部分のテキストのみを抽出したいです。
html
1<HTML> 2<HEAD> 3<META http-equiv="Content-Type" content="text/html; charset=Shift_JIS"> 4<TITLE>AAAAAAAAAAAAAA</TITLE> 5<BASE TARGET="_blank"> 6</HEAD> 7<BODY TEXT="#CC3300" BGCOLOR="#FFFFFF" link="#0000FF" alink="#ff0000" vlink="#660099"> 8<b>ああああ</b><br> 9アイウエオ 10<BR> 11<font size=2> 12<BR><BR><B>日本のニュース</B><BR> 13<a href=http://hogehoge.co.jp>いちばん</a><br> //抽出したい 14<a href=http://hogehoge2.co.jp>にばん</a><br> //抽出したい 15<a href=http://hogehoge3.co.jp>さんばん</a><br> //抽出したい 16<BR><BR><B>世界のニュース</B><BR> 17<a href=http://hogehoge4.co.jp>よんばん</a><br> 18<a href=http://hogehoge5.co.jp>ごばん</a><br> 19<BR><BR><B>宇宙のニュース</B><BR> 20<a href=http://hogehoge6.co.jp>ろくばん</a><br> 21 22以下略
//body//a/text()として全てのテキストを抽出するのではなく、
上記HTMLの日本のニュースのいちばん、にばん、さんばん のみを抽出したいのです。
following-siblingを使用してみたのですが、いまいちうまくいきませんでした。
よろしくお願いいたします。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/04/02 03:51