seleniumにて文字列取得の際、子要素を除外したい

下記のようなHTMLがあり、td.CELL_1_COM内のテキストのみを取得したいのですが、内包されているspanタグの物まで取得されてしまいます。
幸い、除外したい要素にはstatusクラスが設定されているのですが、これ削除する方法メソッドがあれば教えて頂けないでしょうか？

html
1<td class="CELL_1_COM" colspan="6">
2テキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキストテキスト
3<p class="status">
4<span class="line">│</span>
5評価：<span style="color: #2ba1b1;">★★★★☆</span>
6<span class="line">│</span>
7投稿日時：2017/01/20 21:08:02
8</p>
9</td>

正規表現で”│”までというのも考えたのですが、取得したいテキストに”│”が含まれる可能性を考えると、そこまで柔軟に対応出来ないので今回は見送りました。

行動規範の内容に同意します

回答1件

ベストアンサー

正規表現を使っていいならこんな感じで。

Ruby
1#encoding : utf-8
2
3puts open("HTML.html", &:read).scan(%r|>\n(.+?)\n<p|)

単純に正規表現で抜き出しているだけです。

投稿2017/01/22 16:28

退会済みユーザー

総合スコア0

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

seleniumにて文字列取得の際、子要素を除外したい

関連した質問