【Xpath】ある間にあるテキストのみを抽出したい

以下のようなHTMLにおいてコメント部分のテキストのみを抽出したいです。

html
1<HTML>
2<HEAD>
3<META http-equiv="Content-Type" content="text/html; charset=Shift_JIS">
4<TITLE>AAAAAAAAAAAAAA</TITLE>
5<BASE TARGET="_blank">
6</HEAD>
7<BODY TEXT="#CC3300" BGCOLOR="#FFFFFF" link="#0000FF" alink="#ff0000" vlink="#660099">
8<b>ああああ</b><br>
9アイウエオ
10<BR>
11<font size=2>
12<BR><BR><B>日本のニュース</B><BR>
13<a href=http://hogehoge.co.jp>いちばん</a><br>   //抽出したい
14<a href=http://hogehoge2.co.jp>にばん</a><br>   //抽出したい
15<a href=http://hogehoge3.co.jp>さんばん</a><br>  //抽出したい
16<BR><BR><B>世界のニュース</B><BR>
17<a href=http://hogehoge4.co.jp>よんばん</a><br>
18<a href=http://hogehoge5.co.jp>ごばん</a><br>
19<BR><BR><B>宇宙のニュース</B><BR>
20<a href=http://hogehoge6.co.jp>ろくばん</a><br>
21
22以下略

//body//a/text()として全てのテキストを抽出するのではなく、
上記HTMLの日本のニュースのいちばん、にばん、さんばんのみを抽出したいのです。
following-siblingを使用してみたのですが、いまいちうまくいきませんでした。
よろしくお願いいたします。

行動規範の内容に同意します

回答1件

ベストアンサー

「日本のニュース」と「世界のニュース」の間を抜き出すのは難しそうです。
今回は日本のニュースが先頭なので、

plain
1//b[text()='世界のニュース']/preceding-sibling::a/text()

くらいでしょうか。

投稿2018/03/31 13:04

otn

総合スコア84555

ddp

2018/04/02 03:51

ご回答ありがとうございます。上記の内容を確認しているところで、解決方法を見出すことができました。自己解決方法を記入させていただきます。ありがとうございました。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

【Xpath】ある間にあるテキストのみを抽出したい

関連した質問