回答編集履歴

読み込むページをutf-8として扱えていない問題を修正しました。\(結果文字化けを起こします\)

2016/04/29 01:07

投稿

スコア144

answer CHANGED Viewed

@@ -13,8 +13,9 @@
 url = 'http://www.adobe.com/jp/#'
 xpath_query = '//a/text()'
-l = lxml.html.parse(url).xpath(xpath_query)
+l = lxml.html.parse(url, parser=lxml.html.HTMLParser(encoding='utf-8')).xpath(xpath_query)
 print l[236].encode('cp932', 'ignore')  # ==      (ignoreなので失敗した文字を無視している)
 print l[236].encode('cp932', 'replace') # == ??   (replaceだと空の文字列でないことはわかる)
 print l[236].encode('utf-8')            # == 한국 (ハングルを扱える、例えばutf-8ならばエンコード可能)

用語が正しくなかったので修正しました。

2016/04/29 01:07

投稿

スコア144

answer CHANGED Viewed

@@ -17,7 +17,7 @@
 print l[236].encode('cp932', 'ignore')  # ==      (ignoreなので失敗した文字を無視している)
 print l[236].encode('cp932', 'replace') # == ??   (replaceだと空の文字列でないことはわかる)
-print l[236].encode('utf-8')            # == 한국 (エンコードできる文字コードだと表示可能)
+print l[236].encode('utf-8')            # == 한국 (ハングルを扱える、例えばutf-8ならばエンコード可能)
 ```
 別件で質問と関係ないことで、何か意図があるのでしたら申し訳ないのですが、