USBから受けたbyte型文字を変換できない

Question

### 前提・実現したいこと計測器からRS-232Cで出力された信号を、RATOCのDsub-USB変換ケーブル経由でRaspberry Pi3に読み込ませています。 RATOC社のサイトには受信した信号をUTF-8に変換させる方法が載っていたのですが、計測器のヘッダが悪さをしているのか、うまく文字コードの変換ができません。 ### 発生している問題・エラーメッセージ ``` Traceback (most recent call last): File "USB.py", line 7, in line=line.decode('utf-8') UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb7 in position 11: invalid start byte ``` ### 該当のソースコード ```python3 #-*- coding: utf-8 -*- import serial ser = serial.Serial('/dev/ttyUSB0') line = ser.readline() #改行コード取得 line = ser.readline() #ヘッダから改行コードまで読み込み ser.close() line=line.decode('utf-8')　#文字コード変換 print(line) ``` ### 試したこと ``` line = ser.readline() ``` で読んだ値が（一例として） ``` b'S\xd4\xac+000036.6\xa0\xa0\xe7\x8d ' ``` と「S\」などのヘッダを含んでいるので、replaceで余計な文字列を削除しようとしました。 ``` #-*- coding: utf-8 -*- import serial import re ser = serial.Serial('/dev/ttyUSB0') line = ser.readline() line = ser.readline() ser.close() print(line) line=line.replace(b'S\xd4\xac+',b'') #文字列削除 print(line) line=line.decode('utf-8') print(line) ``` が、同様のエラーが出てしまいました。 ``` b'S\xd4\xac+000036.6\xa0\xa0\xe7\x8d '　#読み込んだbyteデータ b'000036.6\xa0\xa0\xe7\x8d '　#削除後のbyteデータ Traceback (most recent call last): File "/home/pi/USB.py", line 11, in line=line.decode('utf-8') UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa0 in position 8: invalid start byte ``` また、replace対象の先頭か最後が'\'だとエスケープしてしまうようで、文字のリプレイスができません。 ``` line=line.replace(b'S\xd4\',b'') #ダイアログエラー「EOL While scanning string literal」 ``` ### 補足情報（FW/ツールのバージョンなど） python3.5.2、Raspberry Pi3、REX-USB60F （http://www.ratoc-e2estore.com/products/detail.php?product_id=35#subsub_title2）よろしくお願いいたします。

Accepted Answer

出力値

```
b'S\xd4\xac+0000\xb16.0\xa0\xa0\xe7\x8d
'
```
に以下の処理を実行
```
line=str(line)
line=line.replace('S\xd4\xac+00','')
line=line.replace('\','')
line=line.replace('xb','')
```
以下のstr型のデータに。

```
b'Sxd4xac+000016.0xa0xa0xe7x8dn'
```

ここからre.searchで小数点を探してその前後の数字を固定長で抜き出し・格納することで、希望するデータ「016.0」を取り出せました

Answer

その計測器に、RS232Cの通信フォーマットの説明はないんでしょうか。
どう見てもバイナリ通信ですが、もしそうなら、readlineで読んではだめです

通信フォーマットに則り、決められた区切りデータ（デリミタデータ）で区切って読み込み、フォーマットに則ってデータを読まないとダメですぜ

Answer

冒頭 `b'S\xd4\xac'` はどういうデータなのか? という点が分かっていないように見えます。
これは長さ3の（つまり3バイトの）データを表しています。

1バイト目が 16進数で 53、10進数で 83 という値
2バイト目が 16進数で d4、10進数で 212 という値
3バイト目が 16進数で ac、10進数で 172 という値

となっている3バイトのデータです。
「「S\」などのヘッダを含んでいる」などというのは**大きな勘違い**です。

対話環境で以下のような操作を実行してみてください。
```
>>> ord(b'S')
83
>>> '{:02x}'.format(ord(b'S'))
'53'
>>> b'\x53'
b'S'
>>> len(b'S\xd4\xac')
3
```

問題のデータですが、2バイト目から3バイト目はかろうじてUTF-8のシーケンスとして妥当で、
```
>>> b'\xd4\xac'.decode('utf-8')
'Ԭ'
```
`Ԭ` という文字を表しますが、13バイト目から17バイト目の`b'\xa0\xa0\xe7\x8d'`はUTF-8の範囲ではありません。
[https://ja.wikipedia.org/wiki/UTF-8#%E3%82%A8%E3%83%B3%E3%82%B3%E3%83%BC%E3%83%89%E4%BD%93%E7%B3%BB](https://ja.wikipedia.org/wiki/UTF-8#%E3%82%A8%E3%83%B3%E3%82%B3%E3%83%BC%E3%83%89%E4%BD%93%E7%B3%BB)
を見てください。

1. a0 で始まるシーケンスはありません
1. e7 で始まるシーケンスは3バイト必要ですが、その3バイト目が`
`つまり16進数で0a、10進数で10 というデータが来ることははありません

ということが確認できるはずです。（できないならUTF-8の意味がわかってないということです）

印象としてその計測器から来ているというデータが、UTF-8の文字列である可能性は低く、UTF-8として解釈させるプログラムを書くのはおそらくは間違いだろう、と推測します。
仕様を確認もせずにUTF-8として読めばいいだろう、と勝手に考えていないでしょうか?

Answer

`\xa0\xa0\xe7\x8d`も変換できないので、ここも同様にreplaceで消せばとりあえず動きます。

ヘッダが固定長なら、スライスで取り出すのも手です。

> replace対象の先頭か最後が'\'だとエスケープしてしまう

そもそも誤解がありそうですが、`\xd4`で1byteを表します。`\x`は16進表記であることを表すエスケープで、実際に`\x`という文字が入っている訳ではありません。データとしては十六進の`d4`です。

Answer

こんにちは。
欲しいのは「000036.6」の部分だけでしょうか。
そうであれば「先頭から+まで」と「実数部分」と「\以降」を分けるといいでしょう。

なおバックスラッシュは特殊な文字なので`\`とエスケープする必要があります。
参考：[Pythonでバックスラッシュを使ってエスケープする方法](https://techacademy.jp/magazine/18915)