Pythonでエンコードのエラーです。

Question

python初心者です。
pythonでスクレイピングの勉強をしている者です。

HTTPヘッダーからエンコーディングを取得するところで、
以下のプログラムを実行しました。

Python3
1import sys
2import requests
3
4url = sys.argv[1]  # 第1引数からURLを取得する。
5r = requests.get(url)  # URLで指定したWebページを取得する。
6print(f'encoding: {r.encoding}', file=sys.stderr)  # エンコーディングを標準エラー出力に出力する。
7print(r.text)  # デコードしたレスポンスボディを標準出力に出力する。
8

環境はWindowsです。
これをコマンドプロンプト実行すると、エラーが出てきます。

>python requests_header_encoding.py https://gihyo.jp/dp > dp.html

すなわち、技術評論社のページのHTMLの内容を,dp.htmlに書き込んで、
保存したいです。

しかし、以下のエラーが出てきます。

Traceback (most recent call last):
File "requests_header_encoding.py", line 7, in <module>
print(r.text) # デコードしたレスポンスボディを標準出力に出力する。
UnicodeEncodeError: 'cp932' codec can't encode character '\xa9' in position 40664: illegal multibyte sequence

このエラーについて、調べてみましたが、
これにあった解決方法が見つからず、困っています。

また、

>python requests_header_encoding.py https://gihyo.jp/dp

で実行すると、
HTMLの内容は表示されます。
実行結果は以下の通り

encoding: utf-8

<!DOCTYPE HTML> <html lang="ja" class="pc"> <head> <meta charset="UTF-8">。。。以下省略

この現象の意味がよく分かりません。
解決法をご教授いただければ幸いです。

Accepted Answer

以下のように標準出力のエンコードを指定すればうまくいくと思います。

```Python
import io
import sys
import requests

# 標準入出力からのリダイレクトの文字コードを「utf-8」にする
sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8')

url = sys.argv[1]  # 第1引数からURLを取得する。
r = requests.get(url)  # URLで指定したWebページを取得する。

print(f'encoding: {r.encoding}', file=sys.stderr)  # エンコーディングを標準エラー出力に出力する。
print(r.text)  # デコードしたレスポンスボディを標準出力に出力する。

```

Answer

2つ目の現象について説明します。原因は標準出力のエンコーディングが異なるためです。
次のコードを`enc_test.py`として保存して下さい。
```python
import sys
print(sys.stdout.encoding)
```
これをリダイレクトなしの場合とありの場合で結果を比較しますと
```shell
python enc_test.py
```
とした場合の結果は`utf8`ですが
```shell
python enc_test.py > result.txt
```
とリダイレクトを使った場合は`cp932`になります。したがってリダイレクトを使用した場合にエラーとなったのは`utf8`から`cp932`への変換が行われたためです。

また`r.text`をリダイレクトしてファイルに保存する方法をあまり推奨しません。requestsパッケージによって推定されてstr型に変換された`r.text`ではなく画像等と同じbyte型の`r.content`をそのまま保存する方が良いです。すなわち
```python
with open('dp.html', 'rb') as f:
    f.write(r.content)
```
とした方が根本的な解決になります。

関連した質問