python3, 表現できないユニコードを一部無視して処理したい

Question

初利用、初心者です。よろしくお願いします。

python3とseleniumを使ってwebサイトをスクレイピングしていました。

ユニコード文字列をlxml.htmlで取って来た要素に対して、
```lang-python
        comments = u""
        comments_elem = root.xpath('//li[@class="hoge"]/span')
        for i,comment_elem in enumerate(comments_elem):
            comments += comment_elem.text_content()
```
みたいな感じで抜き出していたのですが、

途中に絵文字等が入っていたらしく、

```lang-python
UnicodeEncodeError: 'UCS-2' codec can't encode characters in position 3898-3898: Non-BMP character not supported in Tk
```
というエラーが出てきました。

絵文字は不要なので、飛ばして続きの文字列を処理したいのですが、
どうすればいいのでしょうか?

###試したこと
下記サイトにStreamWriterを作ると良いみたいなことが書かれていたので
実践したのですが、
http://d.hatena.ne.jp/nishiohirokazu/20120112/1326355987

新たに
```lang-python
....
File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/codecs.py", line 377, in write
    self.stream.write(data)
TypeError: must be str, not bytes
```
というエラーが発生しました。dataがbyte列なのでstrに変えろということでしょうか?

よくわからないでやっているので、もしできればStreamWriterなどについても教えていただけると幸いです。

###補足情報
python3はver3.6.2
環境はmac OS X 10.9.5です。
容量の関係で更新できずosは若干古いですが、
本題とはあまり関係ないと思ってます。

回答よろしくお願いします。m(_ _)m

###追記

ご指摘を受けました
自己解決欄に書いたprint関数の部分について、です。

と言っても
```lang-python
comments = u"絵文字など????" # 実際のcommentsの中身は上記のコードでの結果

print(comments)
```

といった程度のことです。

ただしどんな絵文字が上記のエラー原因になった(Non-bmpな絵文字と言われた)かは確認できていません。

自己解決欄に書いたコードに対しその解決方法(.translate等)が適用されていなかったと考えて下さい。

その他の部分で直接この件に関係するものはおそらくないです。

Accepted Answer

> ただdict型non_bmp_mapが何者なのかいまいちわかっていないので、もし出来れば教えていただきたいです。m(_ _)m

端的に言えば、

Unicodeの第1面のはじめのコードポイントからpythonが扱える最大のコードポイントまでを、
第0面の代替文字`U+FFFD`のコードポイントにすべてマッピングしたdict

です。

すこしシンプルすぎる回答なので、
問題の整理とともに、そもそもなぜこのようなことをしているのか説明したいと思います。


### 1. 問題の所在

まず、Unicodeには面(Plane)があることはご存知ですか?
日常的に使う文字のうち大部分は第0面(BMPとも呼ばれる)に存在しますが、
絵文字はUnicodeでは一部、第1面以降に属します。

ところで、質問文中のエラーメッセージには`UCS-2`というエンコーディング方式[^1]がでてきますが、`UCS-2`はBMPしか扱えません。
つまり、今回のエラーは、第1面以降に属するUnicodeを、第0面しか扱えない`UCS-2`で処理しようとしたから発生したと考えられます。

### 2. 解決策

このエラーを解消するにはどうしたらよいでしょうか？

[提示されたリンク先](https://stackoverflow.com/questions/32442608/`UCS-2`-codec-cant-encode-characters-in-position-1050-1050)の回答者であるMartijn Pietersさんは、
エラー元の文字列(Unicode)に対して第一面以降に属するUnicodeを、
第0面に属する適当なUnicode(今回は代替文字である`U+FFFD`を使った)に置換することで解決しようとしました。
Pythonで扱える以上のUnicodeは変換対象とする意味はないので、変換範囲は第1面の最初のUnicodeのコードポイントから
Pythonで扱える最大のUnicodeのコードポイント(`sys.maxunicode`で得られる)に限定しています。

またこうした変換を実際に行うため、Martijn Pietersさんはコードポイント[^2]を文字列置換に利用する`translate`関数を使っています。
この関数は `{'変換対象のUnicodeのコードポイント':'変換先のUnicodeのコードポイント'}`となる`dict`を引数に渡して使用するもので、
例えば、第1面に属する`U+1F44D`を代替文字`U+FFFD`に変換するには、

```

# -- python3系を前提とする --

# BMP外に属するUnicodeを含んだstr型の文字列
s = '\U0001F44D'

# 組み込み関数ord()はUnicodeをコードポイントに変換する関数
non_bmp_map = { ord('\U0001F44D'): ord('\U0000FFFD')}

# 変換された文字列を出力
print(s.translate(non_bmp_map))

```

のようにします。

### 3. まとめ

以上から、`non_bmp_map`は、上述した問題を解消するために用意された

`UCS-2`が扱えないUnicode(すなわちBMP以外のUnicode)のコードポイントを
`UCS-2`でも扱えるUnicode(今回は代替文字`U+FFFD`)のコードポイントに置き換えるための`dict`

であるということがわかります。


[^1]: `UCS-2`は符号化文字集合の一種としての定義もありますが、符号化方式の名称としても用いられるようです。
[^2]: コードポイントとはUnicodeひとつひとつに振られている番号のことです。

Answer

エラーはprint関数で発生していたんですね(^ ^;
エラーの内容を少し勘違いしていたみたいです。

調べていたところ、下記質問サイトの回答従ったところうまくいきました。

https://stackoverflow.com/questions/32442608/ucs-2-codec-cant-encode-characters-in-position-1050-1050

```lang-python
import sys

#hogeに絵文字入り文字列

non_bmp_map = dict.fromkeys(range(0x10000, sys.maxunicode + 1), 0xfffd)
print(hoge.translate(non_bmp_map))

```

これで絵文字のところが？扱いになり、print関数でうまく出力することができました。

ただdict型non_bmp_mapが何者なのかいまいちわかっていないので、もし出来れば教えていただきたいです。m(_ _)m