回答編集履歴
2
読み込むページをutf-8として扱えていない問題を修正しました。\(結果文字化けを起こします\)
test
CHANGED
@@ -28,7 +28,9 @@
|
|
28
28
|
|
29
29
|
xpath_query = '//a/text()'
|
30
30
|
|
31
|
-
l = lxml.html.parse(url).xpath(xpath_query)
|
31
|
+
l = lxml.html.parse(url, parser=lxml.html.HTMLParser(encoding='utf-8')).xpath(xpath_query)
|
32
|
+
|
33
|
+
|
32
34
|
|
33
35
|
|
34
36
|
|
1
用語が正しくなかったので修正しました。
test
CHANGED
@@ -36,7 +36,7 @@
|
|
36
36
|
|
37
37
|
print l[236].encode('cp932', 'replace') # == ?? (replaceだと空の文字列でないことはわかる)
|
38
38
|
|
39
|
-
print l[236].encode('utf-8') # == 한국 (エンコード
|
39
|
+
print l[236].encode('utf-8') # == 한국 (ハングルを扱える、例えばutf-8ならばエンコード可能)
|
40
40
|
|
41
41
|
```
|
42
42
|
|