以下のサイトを真似してサイトから記事のタイトル一覧を取得しようとしています。
参考サイト
ですが、実際に動かしてみると文字コードの違いからか表示される文字列が日本語ではありませんでした。どうやら問題はBeautifulSoupのほうではなくurllib2などで取得したデータの文字コードが原因らしいのですが、うまく治せませんでした。
とりあえず下にソースコードとデータの取得結果を載せさせていただきます。回答のほうをお願いします。
Python
1import requests as req 2import urllib2 3import re 4from bs4 import BeautifulSoup as bs 5import chardet 6 7html = urllib2.urlopen("http://jp.techcrunch.com/").read() 8#soup = bs(req.get("http://jp.techcrunch.com/").content, "html.parser") 9soup = bs(html, "html.parser") 10tc_titles = soup.find_all('a', {'data-omni-sm':re.compile('gbl_river_headline,*')}) 11 12tc_titles = [x.next_element for x in tc_titles] 13 14print tc_titles 15
出力結果
u'\u4eba\u9593\u7528\u30d9\u30c3\u30c9\u30de\u30c3\u30c8\u30ec\u30b9\u3067\u6210\u529f\u3057\u305fCasper\u304c\u4eca\u5ea6\u306f\u72ec\u81ea\u306e\u8996\u70b9\u3067\u72ac\u7528\u30d9\u30c3\u30c9\u3092\u958b\u767a', u'Blockai\u3001\u30c4\u30a4\u30fc\u30c8\u3059\u308b\u3060\u3051\u3067\u8457\u4f5c\u6a29\u3092\u4e3b\u5f35\u3067\u304d\u308b\u30c4\u30fc\u30eb\u3092\u63d0\u4f9b', u'Google Classroom\u304c\u30a2\u30c3\u30d7\u30c7\u30fc\u30c8\u3055\u308c\u6559\u5e2b\u3068\u89aa\uff0b\u6559\u5e2b\u3068\u5150\u7ae5\u751f\u5f92\u306e\u30b3\u30df\u30e5\u30cb\u30b1\u30fc\u30b7\u30e7\u30f3\u304c\u5145\u5b9f'
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。