ただいま,インターネット上のHPからファイルを読み込もうとしておりまして,
エクセルファイルが載っているおおもとのHPを読み込もうとして以下のようなコードを作成しております。※ここに記載のURLは架空のものです。
import urllib.request import zipfile import re import zenhan import os import chardet import sys, io sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8') urlp = "http://www.ktr.mmm.go.jp" urlp1 = "/test/test11112.html" url = urlp + urlp1 print(url) res = urllib.request.urlopen(url).read() res_utf8 = res.decode('utf-8')
上記のようにstr型からbytes型(utf-8)に変換したいので,最後のコードにres_utf8 = res.decode('utf-8')を記載しておりますが以下のエラーが出てきてしまいます。
res_utf8 = res.decode('utf-8') UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8a in position 485: invalid start byte
インターネット上で解決方法を探してみましたが,既にダウンロードしてあるエクセルファイルなどにおける上記エラーの処理方法は見つけることができましたが,
そもそもHPを読み込む際のエラーの処理方法は見つけることができませんでした。
このエラーはどのように解決すればよいのでしょうか。
基本的な質問で申し訳ございませんが,よろしくお願いします。
回答3件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。