Python：バイトコードを文字列に変換

Question

Pythonのバイトコードの文字列を日本語文字列に変換したいです。

データベースにHBaseを利用しており、HBaseはデータを全てバイトコードとして格納してしまうので
値としてUTF-8の文字列で"テスト"を格納すると取得する時は"\xE3\x83\x86\xE3\x82\xB9\xE3\x83\x88"というバイトコードの文字列となってしまいます。
どのように元の文字列に変換したらよいでしょうか？
よろしくお願いします。

Accepted Answer

この方法は`eval`に抵抗がなければ、ですが。

```python
# -*- coding: utf-8 -*-

def conv_hbase_str(s):
    return eval('b"{}"'.format(s)).decode()

s = '\xE3\x83\x86\xE3\x82\xB9\xE3\x83\x88'
print(conv_hbase_str(s))
```

-- 追記
[ast.literal_eval](http://docs.python.jp/3/library/ast.html#ast.literal_eval)というのがあり、評価がリテラルに限られるのでこちらの方が多少安全なようです。

```python3
# -*- coding: utf-8 -*-                                                                                                      
from ast import literal_eval

def conv_hbase_str(s):
    return literal_eval('b"{}"'.format(s)).decode()

s = '\xE3\x83\x86\xE3\x82\xB9\xE3\x83\x88'
print(conv_hbase_str(s))
```

Answer

これがベストの方法かどうかあまり自信がないのですが、
`binascii`モジュールの`unhexlify()`関数を使って16進数文字列をバイト列に変換することができます。
その場合、`\x`はあらかじめ取り除かないといけません。

バイト列はデコード（`decode()`メソッド）で文字列に変換できます。

```lang-python
# -*- coding: utf-8 -*-

import binascii

s = "\xE3\x83\x86\xE3\x82\xB9\xE3\x83\x88"
hexstr = s.replace("\x", "") # E38386E382B9E38388
barr = binascii.unhexlify(hexstr) # b'\xe3\x83\x86\xe3\x82\xb9\xe3\x83\x88'
s2 = barr.decode("utf-8")
print(s2) # => テスト
```