質問編集履歴
5
書式の改善
title
CHANGED
|
@@ -1,1 +1,1 @@
|
|
|
1
|
-
|
|
1
|
+
Python2.7でXPath(lxml使用)の抽出結果を最終的にstr型(シフトJIS)のリストで得たい
|
body
CHANGED
|
File without changes
|
4
書式の改善
title
CHANGED
|
@@ -1,1 +1,1 @@
|
|
|
1
|
-
XPath(lxml使用)の抽出結果を最終的にstr型(シフトJIS)のリストで得たい
|
|
1
|
+
PythonでXPath(lxml使用)の抽出結果を最終的にstr型(シフトJIS)のリストで得たい
|
body
CHANGED
|
File without changes
|
3
初心者マークつけ忘れ
title
CHANGED
|
File without changes
|
body
CHANGED
|
File without changes
|
2
書式の改善
title
CHANGED
|
File without changes
|
body
CHANGED
|
@@ -1,6 +1,6 @@
|
|
|
1
1
|
Python2.7でlxmlのXPathを使って取得した抽出結果のデータを
|
|
2
2
|
最終的にシフトJISの文字列型(str型)のリストの形で得たいのですが、
|
|
3
|
-
どうもうまくい
|
|
3
|
+
どうもうまくいかず困っています。
|
|
4
4
|
|
|
5
5
|
xpathを使って抽出されたデータが格納される変数は、
|
|
6
6
|
print文で表示可能で一見するとunicode型のリストの形ではあるものの、
|
|
@@ -28,7 +28,7 @@
|
|
|
28
28
|
list = lxml.html.parse(url).xpath(xpath_query)
|
|
29
29
|
|
|
30
30
|
print type(list) #<type 'list'>
|
|
31
|
-
print list #リストの中身は確認可能。
|
|
31
|
+
print list #リストの中身は確認可能。unicode型の文字列のリスト?
|
|
32
32
|
print list[236] #UnicodeEncodeError: 'cp932' codec can't encode character u'\xed' in position 0:illegal multibyte sequence
|
|
33
33
|
print list[236].encode('cp932','ignore') #何も表示されない
|
|
34
34
|
print type(list[236]) #<type 'lxml.etree._ElementUnicodeResult'>
|
1
誤字
title
CHANGED
|
@@ -1,1 +1,1 @@
|
|
|
1
|
-
lxml
|
|
1
|
+
XPath(lxml使用)の抽出結果を最終的にstr型(シフトJIS)のリストで得たいです。
|
body
CHANGED
|
@@ -29,7 +29,6 @@
|
|
|
29
29
|
|
|
30
30
|
print type(list) #<type 'list'>
|
|
31
31
|
print list #リストの中身は確認可能。一見するとunicode型の文字列のリスト。
|
|
32
|
-
print len(list) #要素の数を確認
|
|
33
32
|
print list[236] #UnicodeEncodeError: 'cp932' codec can't encode character u'\xed' in position 0:illegal multibyte sequence
|
|
34
33
|
print list[236].encode('cp932','ignore') #何も表示されない
|
|
35
34
|
print type(list[236]) #<type 'lxml.etree._ElementUnicodeResult'>
|