トップ 316に関する質問 ElementTreeでマルチバイト文字をスマートに扱う方法

編集履歴

質問編集履歴

詳細を追記

2015/03/03 09:35

投稿

panda_bk

スコア99

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,12 +1,14 @@
 最近、python開発を始めました。(使用バージョンは、python 2.7)
-xml.etree.ElementTreeを使ってXMLパースをしたいと思っています。
+XPathライクな記法が使えるxml.etree.ElementTreeを使って
+XMLパースをしたいと思っています。
-以下のコードでxmlの"Hoge"タグ要素値を取得した場合、text変数の型が、
+以下のコードで、XMLファイルの"Hoge"タグ要素値を取得した場合、text変数の型が、
 日本語等のマルチバイト文字が含まれる場合unicode型に、そうでない場合string型に自動変換されている様です。
 これをマルチバイトであってもstring型で取得できる様に動きを変える事は出来ないでしょうか？
-現状は後続処理でunicode型の場合は"encode("cp932")する"みたいな変換ロジックを入れざるを得ない状況です。
+現状は後続処理で「unicode型の場合は"encode("cp932")する"」みたいな変換ロジックを入れざるを得ない状況です。
 ```lang-xml
 <Test>
   <Hoge>日本語</Hoge>

316 7 398

xmlサンプルを追記

2015/03/03 09:35

投稿

panda_bk

スコア99

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -8,9 +8,9 @@
 これをマルチバイトであってもstring型で取得できる様に動きを変える事は出来ないでしょうか？
 現状は後続処理でunicode型の場合は"encode("cp932")する"みたいな変換ロジックを入れざるを得ない状況です。
 ```lang-xml
-<xml>
+<Test>
   <Hoge>日本語</Hoge>
-</xml>
+</Test>
 ```
 ```lang-python
 import xml.etree.ElementTree as ET

316 7 398

xmlサンプルを追記

2015/03/03 09:31

投稿

panda_bk

スコア99

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -7,6 +7,11 @@
 これをマルチバイトであってもstring型で取得できる様に動きを変える事は出来ないでしょうか？
 現状は後続処理でunicode型の場合は"encode("cp932")する"みたいな変換ロジックを入れざるを得ない状況です。
+```lang-xml
+<xml>
+  <Hoge>日本語</Hoge>
+</xml>
+```
 ```lang-python
 import xml.etree.ElementTree as ET
 root = ET.fromstring(xml)

316 7 398

コードが一部冗長だったので修正

2015/03/03 09:30

投稿

panda_bk

スコア99

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -10,6 +10,5 @@
 ```lang-python
 import xml.etree.ElementTree as ET
 root = ET.fromstring(xml)
-root.findtext(".//Hoge")
 text = root.findtext(".//Hoge")
 ```

316 7 398

タイトル変更

2015/02/27 12:49

投稿

panda_bk

スコア99

title CHANGED Viewed

	@@ -1,1 +1,1 @@
1	- ElementTreeでマルチバイト文字を扱う方法
1	+ ElementTreeでマルチバイト文字をスマートに扱う方法

body CHANGED Viewed

File without changes

316 7 398

改訂

2015/02/27 12:48

投稿

panda_bk

スコア99

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -6,7 +6,7 @@
 日本語等のマルチバイト文字が含まれる場合unicode型に、そうでない場合string型に自動変換されている様です。
 これをマルチバイトであってもstring型で取得できる様に動きを変える事は出来ないでしょうか？
-現状は後続処理でunicode型の場合はencode("cp932")みたいな変換ロジックを入れざるを得ない状況です。
+現状は後続処理でunicode型の場合は"encode("cp932")する"みたいな変換ロジックを入れざるを得ない状況です。
 ```lang-python
 import xml.etree.ElementTree as ET
 root = ET.fromstring(xml)

316 7 398

改訂

2015/02/27 12:44

投稿

panda_bk

スコア99

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -3,7 +3,7 @@
 xml.etree.ElementTreeを使ってXMLパースをしたいと思っています。
 以下のコードでxmlの"Hoge"タグ要素値を取得した場合、text変数の型が、
-日本語等のマルチバイトが含まれる場合unicode型に、シングルバイトならstring型に自動変換されている様です。
+日本語等のマルチバイト文字が含まれる場合unicode型に、そうでない場合string型に自動変換されている様です。
 これをマルチバイトであってもstring型で取得できる様に動きを変える事は出来ないでしょうか？
 現状は後続処理でunicode型の場合はencode("cp932")みたいな変換ロジックを入れざるを得ない状況です。

316 7 398

改訂

2015/02/27 12:43

投稿

panda_bk

スコア99

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -6,7 +6,7 @@
 日本語等のマルチバイトが含まれる場合unicode型に、シングルバイトならstring型に自動変換されている様です。
 これをマルチバイトであってもstring型で取得できる様に動きを変える事は出来ないでしょうか？
-この動きの為、現状は後続処理でunicode型の場合はencode("cp932")みたいな変換ロジックを入れざるを得ない状況です。
+現状は後続処理でunicode型の場合はencode("cp932")みたいな変換ロジックを入れざるを得ない状況です。
 ```lang-python
 import xml.etree.ElementTree as ET
 root = ET.fromstring(xml)

316 7 398

タイトル変更

2015/02/27 12:42

投稿

panda_bk

スコア99

title CHANGED Viewed

	@@ -1,1 +1,1 @@
1	- ~~cElementTree~~でマルチバイト文字を扱う方法
1	+ ElementTreeでマルチバイト文字を扱う方法

body CHANGED Viewed

File without changes

316 7 398