質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
Windows 10

Windows 10は、マイクロソフト社がリリースしたOSです。Modern UIを標準画面にした8.1から、10では再びデスクトップ主体に戻され、UIも変更されています。PCやスマホ、タブレットなど様々なデバイスに幅広く対応していることが特徴です。

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Visual Studio

Microsoft Visual StudioはMicrosoftによる統合開発環境(IDE)です。多種多様なプログラミング言語に対応しています。

UTF-8

UTF-8は8ビット符号単位の文字符号化形式及び文字符号化スキームです。データ交換方式、ファイル形式としては、一般的にUTF-8が使われる傾向があります。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

2回答

2941閲覧

Pythonでエンコードのエラーです。

n_pome

総合スコア2

Windows 10

Windows 10は、マイクロソフト社がリリースしたOSです。Modern UIを標準画面にした8.1から、10では再びデスクトップ主体に戻され、UIも変更されています。PCやスマホ、タブレットなど様々なデバイスに幅広く対応していることが特徴です。

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Visual Studio

Microsoft Visual StudioはMicrosoftによる統合開発環境(IDE)です。多種多様なプログラミング言語に対応しています。

UTF-8

UTF-8は8ビット符号単位の文字符号化形式及び文字符号化スキームです。データ交換方式、ファイル形式としては、一般的にUTF-8が使われる傾向があります。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2020/06/09 03:44

python初心者です。
pythonでスクレイピングの勉強をしている者です。

HTTPヘッダーからエンコーディングを取得するところで、
以下のプログラムを実行しました。

Python3

1import sys 2import requests 3 4url = sys.argv[1] # 第1引数からURLを取得する。 5r = requests.get(url) # URLで指定したWebページを取得する。 6print(f'encoding: {r.encoding}', file=sys.stderr) # エンコーディングを標準エラー出力に出力する。 7print(r.text) # デコードしたレスポンスボディを標準出力に出力する。 8

環境はWindowsです。
これをコマンドプロンプト実行すると、エラーが出てきます。

>python requests_header_encoding.py https://gihyo.jp/dp > dp.html

すなわち、技術評論社のページのHTMLの内容を,dp.htmlに書き込んで、
保存したいです。

しかし、以下のエラーが出てきます。

Traceback (most recent call last):

File "requests_header_encoding.py", line 7, in <module>
print(r.text) # デコードしたレスポンスボディを標準出力に出力する。
UnicodeEncodeError: 'cp932' codec can't encode character '\xa9' in position 40664: illegal multibyte sequence

このエラーについて、調べてみましたが、
これにあった解決方法が見つからず、困っています。

また、

>python requests_header_encoding.py https://gihyo.jp/dp

で実行すると、
HTMLの内容は表示されます。
実行結果は以下の通り

encoding: utf-8

<!DOCTYPE HTML> <html lang="ja" class="pc"> <head> <meta charset="UTF-8">。。。以下省略

この現象の意味がよく分かりません。
解決法をご教授いただければ幸いです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Lhankor_Mhy

2020/06/09 03:53

sys.stdout.encoding はなんですか?
guest

回答2

0

2つ目の現象について説明します。原因は標準出力のエンコーディングが異なるためです。
次のコードをenc_test.pyとして保存して下さい。

python

1import sys 2print(sys.stdout.encoding)

これをリダイレクトなしの場合とありの場合で結果を比較しますと

shell

1python enc_test.py

とした場合の結果はutf8ですが

shell

1python enc_test.py > result.txt

とリダイレクトを使った場合はcp932になります。したがってリダイレクトを使用した場合にエラーとなったのはutf8からcp932への変換が行われたためです。

またr.textをリダイレクトしてファイルに保存する方法をあまり推奨しません。requestsパッケージによって推定されてstr型に変換されたr.textではなく画像等と同じbyte型のr.contentをそのまま保存する方が良いです。すなわち

python

1with open('dp.html', 'rb') as f: 2 f.write(r.content)

とした方が根本的な解決になります。

投稿2020/06/09 10:20

yymmt

総合スコア1615

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

n_pome

2020/06/11 00:51

返信が遅れてしまってすみません。 詳細にご回答いただきありがとうございます。 これから、いただいたコメントに沿って試してみます。 勉強になります。ありがとうございました。
guest

0

ベストアンサー

以下のように標準出力のエンコードを指定すればうまくいくと思います。

Python

1import io 2import sys 3import requests 4 5# 標準入出力からのリダイレクトの文字コードを「utf-8」にする 6sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8') 7 8url = sys.argv[1] # 第1引数からURLを取得する。 9r = requests.get(url) # URLで指定したWebページを取得する。 10 11print(f'encoding: {r.encoding}', file=sys.stderr) # エンコーディングを標準エラー出力に出力する。 12print(r.text) # デコードしたレスポンスボディを標準出力に出力する。 13

投稿2020/06/09 04:41

autumn_nsn

総合スコア335

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

n_pome

2020/06/09 05:19

ご回答いただき誠にありがとうございました。うまくいけました。また一つ勉強になりました。 ありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問