回答率: 85.25%

質問するログイン新規登録

トップ Python 3.xに関する質問 pythonで絵文字だけ取り除く方法

編集履歴

回答編集履歴

1

不備があったため追記

2018/02/17 02:06

投稿

スコア18406

answer CHANGED Viewed

@@ -10,4 +10,21 @@
 Python3(?)ではUTF16がstrの表現に用いられいると思いますが、BMP範囲外の文字はサロゲートペア(長さが2の文字列)で表現されていて、それぞれのUTF16文字コードがU+D800～U+DFFFの範囲になるということを利用したものです。
-不備ありましたらご容赦を・・・
+不備ありましたらご容赦を・・・
+---
+追記：申し訳ありません。不備がありました。
+Python3.6.3 LANG=ja_JP.UTF8でUTF-8のソースコード上にBMP範囲外の文字列リテラルを直接記述して、列挙してみたところ以下のようにサロゲートペアでなく単一の文字として扱われていました。
+len('????') == 1
+ord('????') == 0x1f40d
+このため最初の回答の関数ではＮＧで次のようにしなくてはなりませんでした。
+リスト２
+```Python
+# BMP範囲外のUNICODE文字が1文字として扱われている場合
+def leaveOnlyBMP(s):
+    return "".join(filter(lambda c: ord(c) < 0x10000, s))
+```
+ソースコード上に直接書いたり外部からエンコーディングを指定して文字列を読み込んだ場合など、Python3の環境でサロゲートペアになることがあるのかないのかが自分にはわかってませんが、BMP以外を含めたユニコード全範囲の文字を単一のコードポイントとして扱う能力が今のPythonにはあるようなのでその条件下ではリスト２でないといけないと思いました。