お世話になります。初心者の質問で申し訳ないのですが、どうしても対処できず、
どなたかアドバイスを頂けないでしょうか。
データ解析の勉強のためにpythonを用いたWEB情報取得を試みているのですが、
うまくdecodeができずに止まってしまっています。
<対象ページ>
http://healthtechnews.jp/2015/03/03/nike/
<コード>
lang
1from urllib2 import urlopen 2import MySQLdb 3 4# ページを取得 5url = 'http://healthtechnews.jp/2015/03/03/nike/' 6html = urlopen(url).read() 7 8# mysqlに保存 9connect, cursor = get_con_cursor() 10cursor.execute('INSERT INTO tests ( html ) VALUES ( %s )' % html) 11 12*** OperationalError: (1366, "Incorrect string value: '\\x83\\\\x81[\\x83V...' for column 'html' at row 1") 13
文字コードの問題だろうと思い、下記のサイトを参考に片っ端からdecodeしてみましたが、
上手く変換されません("latin_1"だけ反応がありましたが、変な文字化けが発生します)
参考サイト:http://qiita.com/zarchis/items/3258562ebc9570fa05a3
ただ、コンソール上で
lang
1print html
と打つと、これだけは文字化けせずに綺麗に表示されます。
どうぞよろしくお願いいたします。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。