編集履歴

回答編集履歴

追記

2020/07/08 12:22

投稿

スコア38341

test CHANGED Viewed

@@ -1,5 +1,69 @@
 `UnicodeDecodeError: 'shift_jis' codec can't decode byte 0xff in position 0: illegal multibyte sequence`より[BOM](https://ja.wikipedia.org/wiki/%E3%83%90%E3%82%A4%E3%83%88%E3%82%AA%E3%83%BC%E3%83%80%E3%83%BC%E3%83%9E%E3%83%BC%E3%82%AF)付きのファイルのようです。
-先頭が`0xFF`なので`codecs.open(`で`codecs.BOM_UTF16_LE`または`codecs.BOM_UTF32_LE`を指定してみてください。
+先頭が`0xFF`なので~~`codecs.open(`で`codecs.BOM_UTF16_LE`または`codecs.BOM_UTF32_LE`を指定してみてください。~~
+面倒くさいですが以下のようなコードで`str`型に変換したうえで読み込んでください。
+参考：
-参考：[codecs --- codec レジストリと基底クラス](https://docs.python.org/ja/3/library/codecs.html#module-codecs)
+[codecs --- codec レジストリと基底クラス](https://docs.python.org/ja/3/library/codecs.html#module-codecs)
+[Python - Decode UTF-16 file with BOM](https://stackoverflow.com/questions/22459020/python-decode-utf-16-file-with-bom)
+```Python
+import codecs
+from io import StringIO
+import pandas as pd
+# バイナリで読込、BOMを除去して「UTF-16LE」としてデコード
+with open('VC.csv', 'rb') as f:
+    data = f.read()
+    text = data[len(codecs.BOM_UTF16_LE):].decode('utf-16le')
+print(text)
+#id,str
+#1,あいう
+#2,かきく
+# str型からストリームオブジェクトを作成して読込
+df = pd.read_csv(StringIO(text))
+print(df)
+#   id  str
+#0   1  あいう
+#1   2  かきく
+```
+VC.csv( UTF-16LE with BOM)
+```PlainText
+id,str
+1,あいう
+2,かきく
+```