質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Python 2.7

Python 2.7は2.xシリーズでは最後のメジャーバージョンです。Python3.1にある機能の多くが含まれています。

Q&A

2回答

2189閲覧

【python2.7】取得したWEBページがdecodeできない

mendosa

総合スコア11

Python 2.7

Python 2.7は2.xシリーズでは最後のメジャーバージョンです。Python3.1にある機能の多くが含まれています。

0グッド

1クリップ

投稿2015/03/03 08:11

お世話になります。初心者の質問で申し訳ないのですが、どうしても対処できず、
どなたかアドバイスを頂けないでしょうか。

データ解析の勉強のためにpythonを用いたWEB情報取得を試みているのですが、
うまくdecodeができずに止まってしまっています。

<対象ページ>
http://healthtechnews.jp/2015/03/03/nike/

<コード>

lang

1from urllib2 import urlopen 2import MySQLdb 3 4# ページを取得 5url = 'http://healthtechnews.jp/2015/03/03/nike/' 6html = urlopen(url).read() 7 8# mysqlに保存 9connect, cursor = get_con_cursor() 10cursor.execute('INSERT INTO tests ( html ) VALUES ( %s )' % html) 11 12*** OperationalError: (1366, "Incorrect string value: '\\x83\\\\x81[\\x83V...' for column 'html' at row 1") 13

文字コードの問題だろうと思い、下記のサイトを参考に片っ端からdecodeしてみましたが、
上手く変換されません("latin_1"だけ反応がありましたが、変な文字化けが発生します)

参考サイト:http://qiita.com/zarchis/items/3258562ebc9570fa05a3

ただ、コンソール上で

lang

1print html

と打つと、これだけは文字化けせずに綺麗に表示されます。

どうぞよろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

そのURLから調べてみました。
文字コードを調べるならchardetが簡単で良いと思います。

*** インストール
pip install chardet

*** 実行コード

lang

1from urllib2 import urlopen 2import chardet 3 4# ページを取得 5url = 'http://healthtechnews.jp/2015/03/03/nike/' 6html = urlopen(url).read() 7 8print chardet.detect(html)

*** 実行結果
{'confidence': 0.5088629673113942, 'encoding': 'ISO-8859-2'}

50%の自信で文字コードがわかったので、変換してみました。

  • decode('ISO-8859-2')でUnicodeへデコード。
  • encode('utf8')でUTF-8にエンコードしてみました。

lang

1from urllib2 import urlopen 2import chardet 3 4# ページを取得 5url = 'http://healthtechnews.jp/2015/03/03/nike/' 6html = urlopen(url).read().decode('ISO-8859-2').encode('utf8') 7 8print chardet.detect(html)

*** 実行結果
{'confidence': 0.99, 'encoding': 'utf-8'}

ちょっと手元にMySQLの環境がなかったので上記のみの回答となります。

投稿2015/05/11 15:53

編集2015/05/11 15:55
aria0718

総合スコア46

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

Pythonわかりませんが、DBのほうの文字コードじゃ?
と思ってぐぐった結果、これ↓じゃないかと。
http://babiy3104.hateblo.jp/entry/2014/02/13/000219

投稿2015/03/03 08:29

yunn

総合スコア144

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

mendosa

2015/03/03 08:37

ご回答ありがとうございます。 DBの方の文字コードはUTF-8 Unicodeになっていて、問題ありません。 通常のサイトは上手くいくので、このページをUnicode型に変換しないといけないかと思っています。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問