質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 2.7

Python 2.7は2.xシリーズでは最後のメジャーバージョンです。Python3.1にある機能の多くが含まれています。

Q&A

解決済

1回答

12351閲覧

unicode文字列への変換でエラーが頻発する

Casablanca_mtg

総合スコア209

Python 2.7

Python 2.7は2.xシリーズでは最後のメジャーバージョンです。Python3.1にある機能の多くが含まれています。

0グッド

0クリップ

投稿2016/12/20 06:06

お世話になります。
いまPython入門【2&3対応】という書籍で学習しております
unicode文字列への変換でエラーが頻発する原因がわかりません
お教えください
C:\Users\mtg-1>python
Python 2.7.12 |Anaconda 4.2.0 (64-bit)| (default, Jun 29 2016, 11:07:13) [MSC v.1500 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
Anaconda is brought to you by Continuum Analytics.
Please check out: http://continuum.io/thanks and https://anaconda.org

unicode('あいう') 2系ですと日本語の前にUをつければきちんと表示されます

Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'utf8' codec can't decode byte 0x82 in position 0: invalid start byte

unicode('あいう', 'utf-8')

Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'utf8' codec can't decode byte 0x82 in position 0: invalid start byte

'あいう'.decode()

Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "C:\Users\mtg-1\Anaconda2\lib\encodings\utf_8.py", line 16, in decode
return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0x82 in position 0: invalid start byte

unicode('あいう', 'euc_jp')

Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'euc_jp' codec can't decode bytes in position 0-1: illegal multibyte sequence

unicode('あいう', 'euc_jp', 'replace')

u'\ufffd\ufffd\ufffd' ここはエラーを指定しているのでOKです

はかの部分のエラーはどうして出るのかが知りたいです
ご指導ください

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

ソース中(標準入力)の'あいう'はstr型で、文字コードは「shift_jis(cp932)」だからです。
異なる文字コードでencode/decodeしようとしてエラーになっています。
decodeの場合はおそらくデフォルトutf8とみなして動作しているようです(未確認)

現在の標準入力の文字コードは以下で確認できます。

python

1import sys 2print sys.stdin.encoding

また、以下だと正常に動作します。

python

1unicode('あいう', 'shift_jis') 2'あいう'.decode('shift_jis') 3unicode('あいう', 'shift_jis')

詳細は以下を参照してください。
Python2のstr/unicodeとencode/decode

投稿2016/12/20 06:50

can110

総合スコア38262

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Casablanca_mtg

2016/12/21 00:58

ありがとうございます。確かにcp932と表示されました。encode名を入れてやらないとだめなのですね。ただunicode('あいう', 'utf-8') Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeDecodeError: 'utf8' codec can't decode byte 0x82 in position 0: invalid start byte これについては”ポジション0でバイト0x82をデコードできない”とはどのような理解になるのでしょうか?お教えください >>> len('あいう') 9 これも6になりますがなぜ9なのでしょうか?よろしくお願いいたします
can110

2016/12/21 01:17

文字通りの意味で、0x82で始まる文字列(バイト列)はUTF-8ではないのでデコードできないということです。
can110

2016/12/21 01:20

それは「cp932」と表示される環境とは別の環境で実行した結果ではないでしょうか? len('あいう')はバイト列の長さを返します。 詳細割愛しますがshift_jis(CP932)なら「6」UTF-8なら「9」になります。 たとえば「Bash on Ubuntu on Windows」環境であれば標準入力はUTF-8なので「9」になります。
can110

2016/12/21 04:47

「Bash~」はその名の通りWindows上でBashシェルを利用するための機能(環境)です。centOSではもともとBashシェルが使えるので入手などは不要です。
can110

2016/12/21 04:51

len('あいう')のサイズ違いの原因としては、動作環境での標準入力の文字コードにより、str型の'あいう'のバイト列の中身(表現)が異なるため。という理解でよいかと思います。
Casablanca_mtg

2016/12/22 01:36

お世話になります。インストールしましたがsudoで名前解決エラーが出ないように、ホスト名を設定する必要があるようです。これから修正していきます しかし教えてください moriuchi:~ moriuchiryouko$ python Python 2.7.12 |Anaconda custom (x86_64)| (default, Jul 2 2016, 17:43:17) [GCC 4.2.1 (Based on Apple Inc. build 5658) (LLVM build 2336.11.00)] on darwin Type "help", "copyright", "credits" or "license" for more information. Anaconda is brought to you by Continuum Analytics. Please check out: http://continuum.io/thanks and https://anaconda.org >>> unicode('あいう') Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeDecodeError: 'ascii' codec can't decode byte 0xe3 in position 0: ordinal not in range(128) Macでもエラーが出ます。Python3だとunicode関数が廃止になり(’あいう’)そのものが表示されますがPython2系では上記のエラーが出ます難しいですね。
can110

2016/12/22 05:16

回答の参考ページやこのコメントのよく読めば答えは見つかります。 学習ということですのであえて答えは書きません。 頑張ってください。
Casablanca_mtg

2016/12/22 05:29

了解しました いろいろ勉強させていただき感謝申し上げます。2系は難しいのか?いずれにしても「Bash on Ubuntu on Windows」は知りませんでした。すごく便利に使えますね こうなるとわざわざvagrantを通して(仮想)を用いなくってもWindowsで事足りるような気がします。しかし落ち着くまではここでもエラーが折り重なっているように気も致しますが少しづつ前に進みます文字列の変換に関してはわかりやすい説明で8割がたわかりました。ありがとうございますこれからはAnacondaを通して2系・3系の勉強をしたいしまたルbyもやってみたいですが焦らず頑張ります。ありがとうございます
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問