pythonのurllib2の文字コード？の取り扱いについて

以下のサイトを真似してサイトから記事のタイトル一覧を取得しようとしています。
参考サイト

ですが、実際に動かしてみると文字コードの違いからか表示される文字列が日本語ではありませんでした。どうやら問題はBeautifulSoupのほうではなくurllib2などで取得したデータの文字コードが原因らしいのですが、うまく治せませんでした。
とりあえず下にソースコードとデータの取得結果を載せさせていただきます。回答のほうをお願いします。

Python
1import requests as req
2import urllib2
3import re
4from bs4 import BeautifulSoup as bs
5import chardet
6
7html = urllib2.urlopen("http://jp.techcrunch.com/").read()
8#soup = bs(req.get("http://jp.techcrunch.com/").content, "html.parser")
9soup = bs(html, "html.parser")
10tc_titles = soup.find_all('a', {'data-omni-sm':re.compile('gbl_river_headline,*')})
11
12tc_titles = [x.next_element for x in tc_titles]
13
14print tc_titles
15

出力結果

u'\u4eba\u9593\u7528\u30d9\u30c3\u30c9\u30de\u30c3\u30c8\u30ec\u30b9\u3067\u6210\u529f\u3057\u305fCasper\u304c\u4eca\u5ea6\u306f\u72ec\u81ea\u306e\u8996\u70b9\u3067\u72ac\u7528\u30d9\u30c3\u30c9\u3092\u958b\u767a', u'Blockai\u3001\u30c4\u30a4\u30fc\u30c8\u3059\u308b\u3060\u3051\u3067\u8457\u4f5c\u6a29\u3092\u4e3b\u5f35\u3067\u304d\u308b\u30c4\u30fc\u30eb\u3092\u63d0\u4f9b', u'Google Classroom\u304c\u30a2\u30c3\u30d7\u30c7\u30fc\u30c8\u3055\u308c\u6559\u5e2b\u3068\u89aa\uff0b\u6559\u5e2b\u3068\u5150\u7ae5\u751f\u5f92\u306e\u30b3\u30df\u30e5\u30cb\u30b1\u30fc\u30b7\u30e7\u30f3\u304c\u5145\u5b9f'

行動規範の内容に同意します

回答1件

ベストアンサー

pythonのprint文をリスト内の要素に各々実行してください。ターミナルの表示文字コードutf8なら日本語が正しく出力されるはずです。

python
1for x in tc_titles:
2    print x

文字コードの問題というより、print文の仕様によるものです。
ユニコード型をprintすると、見やすい形で表示してくれますが、ユニコード型文字列が入ったリストやディクショナリをまるごとprintすると、u"uXXXX"のまま出力されます。
詳しくはpython print repr unicode 等のキーワードで検索してみてください。

投稿2016/08/18 03:30