pythonを使ってSMTPでメール送信時に、添付ファイル本文の日本語部分が読めません

Question

### python3.6、 SMTPでメール送信

添付ファイル付(日本語部分を含む)のメールを送信時に、添付ファイルの日本語部分が読めない(文字化けではなくエンコードの値のまま)。

具体的には、
(1)添付ファイルのエンコードがUTF-8の時 -> 受信メールの添付ファイルの日本語部分が読めない
(2)添付ファイルのエンコードがiso-2022jpの時 -> 受信メールの添付ファイルの日本語部分は読める。
のように、(2)の場合は、正常に受信側で読み取れます。

ただ、システム上、元の添付ファイルがUTF-8になってしまっています。
なので、codecsで元の添付ファイルをiso-2022jpに変換しようとすると、下記のエラーになります。
「UnicodeEncodeError: 'iso2022_jp' codec can't encode character '\uff8c' in positi on 98: illegal multibyte sequence」

そもそも、UTF-8の添付ファイルに日本語が含まれてる場合に、正常に(日本語部分が読み取れる状態で)送信できないのでしょうか。


### 該当のソースコード

```python
parent = MIMEMultipart()
body = MIMEText(text, 'plain', 'utf-8')
parent.attach(body)


attachment = MIMEBase(type, subtype, encoders='utf-8')
file = open(path, 'rt', encoding='utf-8')
attachment.set_payload(file.read())
file.close()
encoders.encode_base64(attachment)
parent.attach(attachment)
attachment.add_header("Content-Disposition","attachment", filename=filename)


parent['Subject'] = Header(subject, charset)
parent['From'] = from_address    
parent['To'] = ",".join(to_address)
parent['Date'] = formatdate(localtime=True)   

smtp = smtplib.SMTP('xxx.xxx.xxx.xxx', 25)
smtp.sendmail(from_address, to_address + bcc_addrs, parent.as_string())
```

### 試したこと

ここに問題に対して試したことを記載してください。

### 補足情報（FW/ツールのバージョンなど）


![読める場合](dcf3351668fda1d8a0c9f7b4c7b0b0fa.png)
![読めない場合](790dc0fea9b8204e3519a58fbe58e394.png)

Accepted Answer

まず、**電子メールの内容は文字列ではありません**。このことを簡単に説明します(分かっている人は「本題。」のところまで読み飛ばしてください）。

メールを読み書きする人々にとってはたしかにそうで、電子メールはそのほとんどが文字列 (テキストデータ) でできています。しかしプログラマにとっては違います。彼らにとって電子メールというのは、通信回線で伝送されたりサーバのディスクに保存されたりする**バイト列**です。

文字列は人が考えた概念であって、プログラムの中にしか存在しえないので、伝送したり保存したりするときにバイト列に**符号化**してやる必要があります。文字列を符号化するために用いる変換表が**キャラクタセット** (いわゆる「文字コード」) です (電子メールではほかに「伝送符号化」という符号化のやりかたも使いますが、ここでは説明を略します)。

Pythonでは (3.x以降では必ず)、文字列をstr型として、バイト列をbytes型として扱います。str型は文字列を符号化する`encode()`メソッドを、bytes型はバイト列を文字列に変換する`decode()`メソッドを持っています。

プログラムで電子メールを作成するには、文字列やバイト列を元に、最終的にバイト列を作成する必要があります。ここまでの説明を前提に、ご質問に回答していきます。

---

本題。

```python
parent = MIMEMultipart()
body = MIMEText(text, 'plain', 'utf-8')
parent.attach(body)

attachment = MIMEBase(type, subtype, encoders='utf-8')
file = open(path, 'rt', encoding='utf-8')
attachment.set_payload(file.read())
file.close()
encoders.encode_base64(attachment)
parent.attach(attachment)
attachment.add_header("Content-Disposition","attachment", filename=filename)
```

`body`の文字列を本文に持ち、`path`の場所に保存したファイルを添付したマルチパートのメッセージを作ろうというのですね。

`MIMEText`クラスは"text" MIME型を持つメッセージパートを表すクラスですから、本文の方はこれでいいです。いっぽうMIMEには個々のメッセージパートに「本文」とそれ以外の「添付」という区別はありません。だから添付のほうも同じく`MIMEText`クラスを使えばいいでしょう。

上で説明したように、元になるテキストデータは文字列なので、本文でも添付でもstr型のデータを使わなければなりません。`open()`でテキストモードを明示的に指定しているのは、バイト列であるファイルの内容を読み出して文字列に変換しているのですから、これで正しいですね。

しかし、`encode_base64()`を使って添付のペイロードをBASE64で伝送符号化しようとしています。この意図はいいのですが、BASE64はバイト列をバイト列に符号化する変換です。文字列 (str) を渡したので、これはうまく動かないでしょう。

実は、`MIMEText`クラスで`charset`パラメータを指定してインスタンスを作った場合、最終的なメッセージ全体の符号化の際に伝送符号化を適切に判断してやってくれます (と、emailパッケージのソースに書いてありました)。だからここで伝送符号化しなくていいでしょう。

以上のことを元に、この部分を書き直してみたのが以下です (ほかにもちょっと変えました)。

```python
from email.mime.multipart import MIMEMultipart
from email.mime.multipart import MIMEText

text = '''
本文……
'''
path = '/path/to/attachment.txt'
filename = '添付ファイル.txt'

parent = MIMEMultipart()
body = MIMEText(text, 'plain', 'utf-8')
parent.attach(body)

with open(path, 'rt', encoding='utf-8') as f:
    content = f.read()
attachment = MIMEText(content, 'plain', 'utf-8')
attachment.add_header('Content-Disposition', 'attachment', filename=('utf-8', '', filename))

parent.attach(attachment)
```

これでうまくいくのではないでしょうか。わたしはちゃんと確認できていないので、確認してみてください。

\[2019-04-03追記]

```python
smtp.sendmail(from_address, to_address + bcc_addrs, parent.as_string())
```

ここですが、「電子メールはバイト列である」という原則からすると`as_string()`じゃなくて`as_bytes()`じゃないの? と思うかもしれません。実際、`as_bytes()`もあるのでそっちを使ってもかまいません。両者はデフォルトでは同じ結果を出します (結果が文字列かバイト列かの違いだけで、どちらもASCIIの範囲の文字/バイトを使う)。が、as\_string()は`utf8`ポリシが有効だと違う結果になります。

---

しかし、キャラクタセットを`utf-8`から`iso-2022-jp`に変えたところ、UnicodeEncodeError例外が発生してしまうということでした。\[以下2019-04-03追記]

質問者さんはすでに解決したようですが、改めて書くと、現実には、実際のファイルの内容が想定したキャラクタセットで符号化できるものだとは限らないからです。今回の場合、半角片仮名が含まれています。

ISO-2022-JPの符号化をするコデックは本来、半角片仮名を符号化することができません。しかし、「半角片仮名も使えるようにしようぜ」と考えて独自の方法で符号化できるようにしたコデックの実装も存在してしまっているのが現実です。それらのコデックの符号化方式には互換性がないので、一旦文字列に変換してから符号化すると、元のファイルと違うバイト列になってしまうかもしれません。

MIMETextのインスタンスを作るときに文字列ではなくバイト列を与えると、コデックによる変換をせずにバイト列そのままを符号化されたメッセージに入れてくれます。この場合、open()でファイルを開くときはbフラグを指定してバイト列のままを読み出す必要がありますね。

回答終わり。

python3.6、 SMTPでメール送信

該当のソースコード

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問