URL先のテキストを抜き出して（できれば、）テキストファイルに書き込みたいです。

実現したいこと

以下のプログラムを用いて、入力されているURL先のテキストを出力させたいです。（そして、できれば出力結果をテキストファイルに書き込みたい...）
ただ、以下のプログラムにあるURLだと形式エラーが出てしまい、困っています。

前提

個人的には、URLに「txt」があるから少し他のURLと違うのかな...とは思いつつそこから先へ進めずいます。
ちなみに、普通のWEBURLは大丈夫でした...

発生している問題・エラーメッセージ

Traceback (most recent call last):
  File "d:/selfpy/chap01/hello.py", line 7, in <module>
    text = soup.find(class_='entry-content').get_text()
AttributeError: 'NoneType' object has no attribute 'get_text'

該当のソースコード

Python3
1from bs4 import BeautifulSoup
2import requests as req
3
4url = 'https://kokkai.ndl.go.jp/txt/121104376X01420230418/235'
5html = req.get(url).content
6soup = BeautifulSoup(html, 'html.parser')
7text = soup.find(class_='entry-content').get_text()
8print(text)

試したこと

soup.findのクラス部分をtxtに変更した
get.text➡get.txt　に変更

補足情報（FW/ツールのバージョンなど）

些細な事、𠮟咤激励など含めてコメント等いただけると助かります。

8524ba23

2023/05/26 06:25

print(html)なりで意図通りのHTMLが取得できているか確認してください。もし意図通りでなければ、その原因について調べてみて分かったこと（分からなかったこと）を本文に追記ください。

melian

2023/05/26 06:37

その URL は以下へリダイレクトされています。(response status code 301) https://kokkai.ndl.go.jp/#/detail?minId=121104376X01420230418&spkNum=235&single

行動規範の内容に同意します

回答1件

XMLHttpRequest(XHR) による API がありますので、そちらを使うとよいかと思います。

python
1import json
2import requests as req
3
4url = 'https://kokkai.ndl.go.jp/txt/121104376X01420230418/235'
5
6min_id, spk_num = url.split('/')[-2:]
7url = f'https://kokkai.ndl.go.jp/minutes/api/v1/detail/list?minId={min_id}'
8text = req.get(url).text
9dic = json.loads(text)
10text = [t['speech'] for t in dic['data'][0]['spk_inf'] if t['spk_num'] == int(spk_num)]
11if text: text = text[0]
12print(text)
13
14# ○前原委員　国民民主党の前原誠司でございます。
15# 　防衛力の財源確保法の質疑の前に、植田新総裁にお越しをいただいておりますので、金融政策について質問させていただきたいと思います。
16# 　議院運営委員会の意見聴取のときにお尋ねしたことの確認に一つなるわけでございますけれども、平成二十五年一月二十二日に発表されました政府と日本銀行の共同声明について、新総裁として、見直しや新たな共同声明の発出は必要ないというお考えに変わりはありませんか。その点について御答弁ください。