Pythonでテキストファイルが文字化けする

Python
1import requests
2from bs4 import BeautifulSoup
3
4url = "https://www.ymori.com/books/python2nen/test1.html"
5html = requests.get(url)
6soup = BeautifulSoup(html.content, "html.parser")
7
8#適切にエンコードする
9html.encoding = html.apparent_encoding
10
11filename = "download.txt"
12with open(filename, mode="w") as f:
13    f.write(html.text)

書籍を見ながらPythonを勉強しています。著者が提供するサイトをrequestsでアクセスしてテキストファイルでダウンロードするという部分です。書籍の説明ではhtml.encoding = html.apparent_encodingの行を「自動で適切なエンコードをしてくれる」と説明してあるものの書き込まれたテキストファイルを開くと文字化けします。コードはWindowsのvsCodeでUTF-8で書いて同じvsCodeでUTF-8で開いています。htmlもUTF-8で書かれているようなので、なぜ文字化けするのかわかりません。開くときにShift_JISを指定すると文字化けが解消されます。念の為print(html.encoding)を利用してみるとUTF-8が返ってきました。

UTF-8で保存する方法を教えていただけないでしょうか？

行動規範の内容に同意します

回答1件

ベストアンサー

質問者さんの環境は、windowsではないでしょうか。
pythonはwriteする時、実行している環境（OS）のデフォルト文字セット（windowsの場合はsjis）で、書きこみます。
従って所望のケースは、

python
1open(filename, mode="w", encoding="utf-8")

とすれば良いと思います。

投稿2020/10/13 09:06

ikapy

総合スコア1167

退会済みユーザー

2020/10/13 09:28

UTF-8で書き込まれましたが、少しわからない点があります。apparent_encodingの行をコメントアウトすると文字化けします。この場合apparent_encodingはどういう動きをしているのでしょうか？

ikapy

2020/10/13 11:02

詳しくないのですが、ドキュメントhttps://requests.readthedocs.io/en/master/api/をみると、apparent_encoding(みかけのencoding.自分が実行したら'utf-8’でした)としてgetしたhtmlというobjectに保持しているようです。それをhtml.encodingとしてセットすることによりそのencodingで処理するのでないのではないでしょうか。

退会済みユーザー

2020/10/14 04:37

オブジェクトに保存してるんですね。まだピンとこない部分もありますが、これからは書き込むときにencoding="utf-8"を忘れずに指定します。ありがとうざいました。

行動規範の内容に同意します