質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

文字コード

文字コードとは、文字や記号をコンピュータ上で使用するために用いられるバイト表現を指します。

Q&A

解決済

2回答

5596閲覧

Python:バイトコードを文字列に変換

kuma3

総合スコア60

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

文字コード

文字コードとは、文字や記号をコンピュータ上で使用するために用いられるバイト表現を指します。

0グッド

0クリップ

投稿2016/08/16 10:26

Pythonのバイトコードの文字列を日本語文字列に変換したいです。

データベースにHBaseを利用しており、HBaseはデータを全てバイトコードとして格納してしまうので
値としてUTF-8の文字列で"テスト"を格納すると取得する時は"\xE3\x83\x86\xE3\x82\xB9\xE3\x83\x88"というバイトコードの文字列となってしまいます。
どのように元の文字列に変換したらよいでしょうか?
よろしくお願いします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

この方法はevalに抵抗がなければ、ですが。

python

1# -*- coding: utf-8 -*- 2 3def conv_hbase_str(s): 4 return eval('b"{}"'.format(s)).decode() 5 6s = '\\xE3\\x83\\x86\\xE3\\x82\\xB9\\xE3\\x83\\x88' 7print(conv_hbase_str(s))

-- 追記
ast.literal_evalというのがあり、評価がリテラルに限られるのでこちらの方が多少安全なようです。

python3

1# -*- coding: utf-8 -*- 2from ast import literal_eval 3 4def conv_hbase_str(s): 5 return literal_eval('b"{}"'.format(s)).decode() 6 7s = '\\xE3\\x83\\x86\\xE3\\x82\\xB9\\xE3\\x83\\x88' 8print(conv_hbase_str(s))

投稿2016/08/16 11:59

編集2016/08/22 13:46
sharow

総合スコア1149

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kuma3

2016/08/16 13:52

ありがとうございます。こんな簡単な方法でできるんですね!やっていることが難しくよく理解できませんがこの方法を使ってみようと思います。
sharow

2016/08/16 14:15

一応ですが、「eval 危険」でググって概要を確認しておいてください。 evalはインタープリタ系の言語特有の機能で、「文字列の形で受け取った式」を評価します。 eval('print("hello")') とすると、print("hello") と同じ結果になります。外部のユーザーからこの文字列を自由に設定できると脆弱性となります。このような理由によりevalを使う際には注意を要します(evalに抵抗がなければ、というのはこの意味でした)。 HBase(というよりHBaseのPythonドライバ?)が **必ず** bytesの顔をしたstrを返すなら危険性はないと思われます。が、HBaseのPythonドライバなどをアップデートした際には、この点が修正/変更されたりしていないか確認する必要があります。そのような心配をしたくない場合はargiusさんの方法が良いです。
kuma3

2016/08/16 14:41

そんな危険があるんですね。詳しい説明ありがとうございます! 危険がないところで使おうと思います。
guest

0

これがベストの方法かどうかあまり自信がないのですが、
binasciiモジュールのunhexlify()関数を使って16進数文字列をバイト列に変換することができます。
その場合、\\xはあらかじめ取り除かないといけません。

バイト列はデコード(decode()メソッド)で文字列に変換できます。

lang

1# -*- coding: utf-8 -*- 2 3import binascii 4 5s = "\\xE3\\x83\\x86\\xE3\\x82\\xB9\\xE3\\x83\\x88" 6hexstr = s.replace("\\x", "") # E38386E382B9E38388 7barr = binascii.unhexlify(hexstr) # b'\xe3\x83\x86\xe3\x82\xb9\xe3\x83\x88' 8s2 = barr.decode("utf-8") 9print(s2) # => テスト

投稿2016/08/16 11:25

argius

総合スコア9390

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kuma3

2016/08/16 13:53

回答ありがとうございます。Pythonの文字の扱いに慣れていないので大変勉強になりました!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問