【python】xpathを使用してtd内の文字列を、<br>タグも含めてまるごと取得する方法をご教示いただきたい。

前提・実現したいこと

pythonでxpathを使用して、
下記HTMLのtd内の文字を<br>タグも含めて、まるごと取得（スクレイピング）したいです。

html
1<th>A<th>
2<td>
3　あいうえお<br>
4　かきくけこ<br>
5　さしすせそ<br>
6　たちつてと<br>
7</td>

該当のソースコード

python
1        for tr in exp.xpath('.//tr'):
2            key = tr.xpath('.//th[1]')[0].text.strip()
3            value = tr.xpath('.//td[1]')[0].text.strip() \
4                if tr.xpath('.//td[1]')[0].text else ''
5            data[key] = value

発生している問題

上記ソースコードで実施したところ、
最初の「あいうえお」しか取得出来ませんでした。

試したこと

ソースコードの3行目をいろいろと変更して試してみました。

value = tr.xpath('string(.//td[1])').strip()
のときは、「あいうえおかきくけこさしすせそたちつてと」と文字はすべて取得できましたが、
<br>タグが含まれてませんでした。

下記で試してみましたが、すべてエラーとなってしまいました。

×　value = tr.xpath('text(.//td[1])').strip()
×　value = tr.xpath('.//td[1]/string()').strip()
×　value = tr.xpath('.//td[1]').strip()
×　value = tr.xpath('.//td[1]')[0].node.strip()
×　value = tr.xpath('.//td[1]')[0].node().strip()
×　value = lxml.html.tostring(tr.xpath('.//td[1]'))
×　value = lxml.tostring(tr.xpath('.//td[1]'))

<br>タグも含めて、td内の文字を取得する方法がわかる方がいらっしゃいましたら、
ぜひご教示いただけないでしょうか。何卒よろしくお願い致します。

hayataka2049

2020/01/15 10:10

lxmlを使っているのでしょうか？　それ以外のライブラリを使用することも想定していますか？

yasuda_masashi

2020/01/15 11:02

ご質問ありがとうございます。実はlxmlを使っているかどうかも不明なまま取り合えず試してみたという経緯になります。環境をいじることができないため、ライブラリの追加等も今のところは考えておりませんが、ライブラリを使用しないと難し感じなのでしょうか。

行動規範の内容に同意します

回答1件

普段はbeautifulsoupしか使ったことないので
lxmlのxpathははじめてなので調べてみました

text_content
https://qiita.com/KenFujita/items/0e666ab7f2f152bc0078

tostring
https://python.keicode.com/advanced/xml-lxml-1.php

python
1from lxml import html
2from lxml.etree import tostring
3
4raw_html = """\
5<th>A<th>
6<td>
7あいうえお<br>
8かきくけこ<br>
9さしすせそ<br>
10たちつてと<br>
11</td>
12"""
13
14html = html.fromstring(raw_html)
15
16tag = html.xpath("//td")[0]
17
18# テキスト
19s1 = tag.text_content()
20
21# タグ
22s2 = tostring(tag, encoding="utf-8").decode()
23
24print(s1)
25print(s2)