python初心者です。
pythonでスクレイピングの勉強をしている者です。
HTTPヘッダーからエンコーディングを取得するところで、
以下のプログラムを実行しました。
Python3
1import sys 2import requests 3 4url = sys.argv[1] # 第1引数からURLを取得する。 5r = requests.get(url) # URLで指定したWebページを取得する。 6print(f'encoding: {r.encoding}', file=sys.stderr) # エンコーディングを標準エラー出力に出力する。 7print(r.text) # デコードしたレスポンスボディを標準出力に出力する。 8
環境はWindowsです。
これをコマンドプロンプト実行すると、エラーが出てきます。
>python requests_header_encoding.py https://gihyo.jp/dp > dp.html
すなわち、技術評論社のページのHTMLの内容を,dp.htmlに書き込んで、
保存したいです。
しかし、以下のエラーが出てきます。
Traceback (most recent call last):
File "requests_header_encoding.py", line 7, in <module>
print(r.text) # デコードしたレスポンスボディを標準出力に出力する。
UnicodeEncodeError: 'cp932' codec can't encode character '\xa9' in position 40664: illegal multibyte sequence
このエラーについて、調べてみましたが、
これにあった解決方法が見つからず、困っています。
また、
>python requests_header_encoding.py https://gihyo.jp/dp
で実行すると、
HTMLの内容は表示されます。
実行結果は以下の通り
<!DOCTYPE HTML> <html lang="ja" class="pc"> <head> <meta charset="UTF-8">。。。以下省略encoding: utf-8
この現象の意味がよく分かりません。
解決法をご教授いただければ幸いです。
回答2件
あなたの回答
tips
プレビュー