pd.read_html関数で特定のTableタグを読み込む方法を知りたい

pandasでpd.read_html()関数を使って、HTML上のテーブルをpdのDtaFrameとして読込む処理で苦戦しています。

普通にURLを指定してHTMLを読み込むと、ユーザー操作内容によって、取り込みたいテーブルの順番が可変となり、正しく処理できません。
そのため、BeautifulSoupで該当する特定のTableタグ(<table>～</table>)だけを読み込みこんだ後にstr()でテキストに変換し、それをpandasのpd.read_html()でDataFrameに変換しようとしましたが、テーブル無しのエラーとなりました。
どのようにすれば、pandasのDataFrameとして取り込めるのでしょうか？

エラーとなるコード。
import bs4
import pandas as pd
html_text = './test_table.html'
test_table = pd.read_html(html_text)

発生したエラーメッセージ
ValueError Traceback (most recent call last)
<ipython-input-13-3984c22e0f02> in <module>()
4 # test_table.htmlはHTMLの特定テーブルをテキスト化したファイル
5 html_text = './test_table.html'
----> 6 test_table = pd.read_html(html_text)

/usr/local/lib/python3.7/dist-packages/pandas/io/html.py in _parse_tables(self, doc, match, attrs)
545
546 if not tables:
--> 547 raise ValueError("No tables found")
548
549 result = []

ValueError: No tables found

行動規範の内容に同意します

回答1件

ベストアンサー

こちらで試してみたところでは、動いています。

ご参考までにコードを載せておきます。
ファイルは作らずにメモリ上でやっていますが、その部分にファイル名を書いても動くはずです。
(日本政府のページなので著作権で問題になることはないと思っています)

python
1>>> import requests
2>>> from bs4 import BeautifulSoup
3>>> import io
4>>>
5>>> res = requests.get("https://www.e-survey.go.jp/")
6>>> soup = BeautifulSoup(res.text)
7>>> tbl = soup.find('table')
8>>> with io.StringIO(str(tbl)) as f:
9...     df = pd.read_html(f)
10...
11>>> print(df)
12[          掲載日    府省名         統計調査名                                  件名
130  2021年5月26日  文部科学省       地方教育費調査   令和3年度地方教育費調査「オンライン調査システム操作手順書」の掲載
141  2021年5月20日  文部科学省      学校保健統計調査         【学校保健統計調査】オンライン調査ヘルプデスクについて
152  2021年4月28日   日本銀行  全国企業短期経済観測調査                  調査対象企業の定例的な見直しについて
163  2021年4月28日  文部科学省        学校基本調査        【学校基本調査】連絡先情報における必須項目の追加について
174  2021年4月27日  文部科学省        学校基本調査  【学校基本調査】回答データテンプレートが白紙で出力される事象について