Pythonでエンコードのエラーです。

python初心者です。
pythonでスクレイピングの勉強をしている者です。

HTTPヘッダーからエンコーディングを取得するところで、
以下のプログラムを実行しました。

Python3
1import sys
2import requests
3
4url = sys.argv[1]  # 第1引数からURLを取得する。
5r = requests.get(url)  # URLで指定したWebページを取得する。
6print(f'encoding: {r.encoding}', file=sys.stderr)  # エンコーディングを標準エラー出力に出力する。
7print(r.text)  # デコードしたレスポンスボディを標準出力に出力する。
8

環境はWindowsです。
これをコマンドプロンプト実行すると、エラーが出てきます。

>python requests_header_encoding.py https://gihyo.jp/dp > dp.html

すなわち、技術評論社のページのHTMLの内容を,dp.htmlに書き込んで、
保存したいです。

しかし、以下のエラーが出てきます。

Traceback (most recent call last):

File "requests_header_encoding.py", line 7, in <module>
print(r.text) # デコードしたレスポンスボディを標準出力に出力する。
UnicodeEncodeError: 'cp932' codec can't encode character '\xa9' in position 40664: illegal multibyte sequence

このエラーについて、調べてみましたが、
これにあった解決方法が見つからず、困っています。

また、

>python requests_header_encoding.py https://gihyo.jp/dp

で実行すると、
HTMLの内容は表示されます。
実行結果は以下の通り

encoding: utf-8

<!DOCTYPE HTML> <html lang="ja" class="pc"> <head> <meta charset="UTF-8">。。。以下省略

この現象の意味がよく分かりません。
解決法をご教授いただければ幸いです。

Lhankor_Mhy

2020/06/09 03:53

sys.stdout.encoding はなんですか？

行動規範の内容に同意します

回答2件

2つ目の現象について説明します。原因は標準出力のエンコーディングが異なるためです。
次のコードをenc_test.pyとして保存して下さい。

python
1import sys
2print(sys.stdout.encoding)

これをリダイレクトなしの場合とありの場合で結果を比較しますと

shell
1python enc_test.py

とした場合の結果はutf8ですが

shell
1python enc_test.py > result.txt

とリダイレクトを使った場合はcp932になります。したがってリダイレクトを使用した場合にエラーとなったのはutf8からcp932への変換が行われたためです。

またr.textをリダイレクトしてファイルに保存する方法をあまり推奨しません。requestsパッケージによって推定されてstr型に変換されたr.textではなく画像等と同じbyte型のr.contentをそのまま保存する方が良いです。すなわち

python
1with open('dp.html', 'rb') as f:
2    f.write(r.content)

とした方が根本的な解決になります。

投稿2020/06/09 10:20

yymmt

総合スコア1615

n_pome

2020/06/11 00:51

返信が遅れてしまってすみません。詳細にご回答いただきありがとうございます。これから、いただいたコメントに沿って試してみます。勉強になります。ありがとうございました。

行動規範の内容に同意します

ベストアンサー

以下のように標準出力のエンコードを指定すればうまくいくと思います。

Python
1import io
2import sys
3import requests
4
5# 標準入出力からのリダイレクトの文字コードを「utf-8」にする
6sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8')
7
8url = sys.argv[1]  # 第1引数からURLを取得する。
9r = requests.get(url)  # URLで指定したWebページを取得する。
10
11print(f'encoding: {r.encoding}', file=sys.stderr)  # エンコーディングを標準エラー出力に出力する。
12print(r.text)  # デコードしたレスポンスボディを標準出力に出力する。
13