質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

827閲覧

python3 クローリング: htmlデータをファイル保存してもhtmlが表示されないです

tommy153229ice

総合スコア1

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2021/02/26 11:04

前置き

python3でクローリングを勉強しています。
得られたhtmlデータをファイル保存しようとしたところ以下のエラーメッセージが発生しました。

発生している問題・エラーメッセージ

C:¥Users>python requests_header_encoding.py https://yahoo.co.jp/dp > dp.html encoding: UTF-8 Traceback (most recent call last): File"C:¥Users>python requests_header_encoding.py", line 7, in <module> print(r.text) UnicodeEncodeError: 'cp932' codec can't encode character '¥xa9' in position 33597: illegal multibyte sequence コマンドプロンプトでこのように表示されました。

該当のソースコード

1 import sys 2 import requests 3 4 url = sys.argv[1] 5 r = requests.get(url) 6 print(f'encoding: {r.encoding}', file=sys.stderr) 7 print(r.text)

ソースコード7行目の text を何かに変えれば良いと思ったのですが
htmlを表示させるには、どのような引数にすればよいか分かりませんでした

ご回答宜しくお願い致します。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

Windowsでリダイレクトを使うと、Pythonの標準出力のエンコードの既定値がcp932になります。今回得られるテキスト中に著作権マーク© (U+00A9)が含まれており、cp932では表現できない文字なので、リダイレクトしたときにだけエラーが表示されます。

対策としては、標準出力のエンコードをutf-8に変更してください。

Python

1sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8')

この後でprintしたものをリダイレクトすれば、utf-8でエンコードされたファイルが作成されます。

補足: 書いた後で見つかる同じ内容の質問。
Python - Pythonでエンコードのエラーです。|teratail

さらに補足: Python 3.7以降で使える-X utf8オプションを使うと、標準出力のエンコードの既定値がutf-8になるので、上記のコードが不要になります。環境変数PYTHONUTF8に1を設定しても、同じ効果が得られます。

Diff

1-C:¥Users>python requests_header_encoding.py https://yahoo.co.jp/dp > dp.html 2+C:¥Users>python -X utf8 requests_header_encoding.py https://yahoo.co.jp/dp > dp.html

投稿2021/02/26 12:08

編集2021/02/26 12:21
Daregada

総合スコア11990

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

tommy153229ice

2021/02/27 13:18 編集

Daregadaさん回答してくださりありがとうございます。 試してみたところエラー無くファイル保存できました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問