回答編集履歴

一部修正＋説明追加

2022/01/17 08:55

投稿

スコア24672

answer CHANGED Viewed

@@ -1,7 +1,7 @@
 - requestsで返ってくるのは機械語に近いデータであり、それをbeautifulsoupの変換によってhtmlに直されているみたいなイメージかなと思いました。
 違います。
-requests.contentsで帰ってくるのがhtmlです。ただし、utf8でdecodeしないと、日本語フォントで表示できないだけです。以下を見てください。
+requests.getの戻り値のcontents属性がhtmlです。ただし、utf8でdecodeしないと、日本語フォントで表示できないだけです。以下を見てください。
 ```python
 >>> aiueo_encoded = 'あいうえお'.encode()
@@ -13,4 +13,7 @@
 encodeとdecodeについては、[公式ドキュメント Unicode HOWTO](https://docs.python.org/ja/3/howto/unicode.html)をお読みください。
+requests.getの戻り値のtext属性はdecodeしたhtmlになるのですが、scriptが含まれている場合などにdecodeに失敗する場合があるようです。
+そのため、日本語のhtmlをdecodeする場合は、text属性を使うよりも、contents属性をBeautifulSoupに渡してBeautifulSoupでdecodeさせたほうが良いとされています。