回答編集履歴

io\.read\(\)が返す文字列の型について追記

2017/03/21 07:57

投稿

8524ba23

スコア38352

answer CHANGED Viewed

@@ -21,4 +21,32 @@
 ```
 UnicodeEncodeError: 'cp932' codec can't encode character u'\u33a5' in position 18: illegal multibyte sequence
 ```
-というエラーが発生します。
+というエラーが発生します。
+2017/03/21追記：`io.read()`が返す文字列の型について
+--
+[15.2. io — ストリームを扱うコアツール](http://docs.python.org/2.7/library/io.html)にて
+> テキストモード (デフォルトか mode 引数に 't' が含まれている場合) では、ファイルの内容は unicode 文字列として返され、バイト列はプラットフォーム依存のエンコーディングか、 encoding が指定された場合は指定されたエンコーディングを使ってデコードされます。
+と記載されているとおり、質問文のコードでは`io.open`時にエンコーディングを指定しているので、fin.read()で返される文字列は、内部で`utf-8`でデコードされた`unicode`型となります。
+すなわちfin.read().decode('utf-8')する必要はありません。
+確認コード
+```
+>python
+Python 2.7.12 |Anaconda custom (64-bit)| (default, Jun 29 2016, 11:07:13) [MSC v
+.1500 64 bit (AMD64)] on win32
+Type "help", "copyright", "credits" or "license" for more information.
+Anaconda is brought to you by Continuum Analytics.
+Please check out: http://continuum.io/thanks and https://anaconda.org
+>>> import io
+>>> with io.open('data.csv',encoding='utf-8') as fin:
+...     tmp = fin.read()
+...
+>>> type(tmp)
+<type 'unicode'>
+>>> repr(tmp)
+"u'a'"
+```