回答編集履歴

2

読み込むページをutf-8として扱えていない問題を修正しました。\(結果文字化けを起こします\)

2016/04/29 01:07

投稿

toko
toko

スコア144

test CHANGED
@@ -28,7 +28,9 @@
28
28
 
29
29
  xpath_query = '//a/text()'
30
30
 
31
- l = lxml.html.parse(url).xpath(xpath_query)
31
+ l = lxml.html.parse(url, parser=lxml.html.HTMLParser(encoding='utf-8')).xpath(xpath_query)
32
+
33
+
32
34
 
33
35
 
34
36
 

1

用語が正しくなかったので修正しました。

2016/04/29 01:07

投稿

toko
toko

スコア144

test CHANGED
@@ -36,7 +36,7 @@
36
36
 
37
37
  print l[236].encode('cp932', 'replace') # == ?? (replaceだと空の文字列でないことはわかる)
38
38
 
39
- print l[236].encode('utf-8') # == 한국 (エンコードできる文字コードだと表示可能)
39
+ print l[236].encode('utf-8') # == 한국 (ハングルを扱える、例えばutf-8ならばエンコード可能)
40
40
 
41
41
  ```
42
42