Pythonでの文字列の扱いに関してのご質問です。文字コード

Question

Pythonでの文字列の扱いに関してのご質問です。

プログラム内で例えば　**\xe3\x81\xbe\xe3\x81\xa4\xe3\x82\x80\xe3\x82\x89 ** こういった文字列を　**まつむら**に変換したいときprintでコンソールに出力する以外で変換する方法を教えていただきたいです。
pythonでの変換を行いたいです。

当方にはあまり文字コードや符号化あたりの基礎知識、そもそも　**\xe3\x81\xbe\xe3\x81\xa4\xe3\x82\x80\xe3\x82\x89**　がナニなのかも良く分かってないない状況ですのでまずどういった知識を取り入れればいいのか、も合わせて教えていただけると幸いです。

かなり人任せな質問にはなってしまいましたが宜しくおねがいします。

Answer

説明するのは難しいのでサンプルコードとキーワードのみの回答で。
`文字コード`、`符号化`などで検索してみてください。
[符号化文字集合と文字符号化方式 - 「プログラマのための文字コード技術入門」を読んだ](https://blog.shibayu36.org/entry/2015/09/14/102100)の`符号化文字集合と文字符号化方式の関係`の図が分かりやすいかと思います。

あとは[「分かりそう」で「分からない」でも「分かった」気になれるIT用語辞典](https://wa3.i-3-i.info/index.html)の以下あたりなど。
- [文字コードとは](https://wa3.i-3-i.info/word137.html)
- [UTF-8とは](https://wa3.i-3-i.info/word1812.html)
- [符号化文字集合とは](https://wa3.i-3-i.info/word15291.html)
- [文字符号化方式とは](https://wa3.i-3-i.info/word15292.html)
- [ 「文字コード」と「文字エンコード」の違い](https://wa3.i-3-i.info/diff16moji.html)

```Python
# 「まつむら」をUTF-8でエンコード（表現）したもの
# これはバイト列
b = b'\xe3\x81\xbe\xe3\x81\xa4\xe3\x82\x80\xe3\x82\x89'

# UTF-8で表現されたバイト列をUNIOCDE文字列にデコード（バイト→文字列に変換）する
# この時点でsはUNICODE文字列での「まつむら」になる
s = b.decode('utf-8')

print(s) # まつむら
```

Answer

UTF-8 d^^
```text
usr ~ % echo まつむら >a.txt
usr ~ % od -x a.txt
0000000 81e3 e3be a481 82e3 e380 8982 000a
usr ~ % nkf -g a.txt 
UTF-8
usr ~ % nkf -Ws a.txt >b.txt
usr ~ % nkf -g b.txt
Shift_JIS
usr ~ % 

```

関連した質問