回答編集履歴

誤字の修正

2017/09/06 18:30

投稿

退会済みユーザー

スコア0

answer CHANGED Viewed

@@ -3,7 +3,7 @@
 端的に言えば、
 Unicodeの第1面のはじめのコードポイントからpythonが扱える最大のコードポイントまでを、
-第0面の代替文字U+FFFDのコードポイントにすべてマッピングしたdict
+第0面の代替文字`U+FFFD`のコードポイントにすべてマッピングしたdict
 です。
@@ -17,22 +17,22 @@
 日常的に使う文字のうち大部分は第0面(BMPとも呼ばれる)に存在しますが、
 絵文字はUnicodeでは一部、第1面以降に属します。
-ところで、質問文中のエラーメッセージには`USC-2`というエンコーディング方式[^1]がでてきますが、UCS-2はBMPしか扱えません。
+ところで、質問文中のエラーメッセージには`UCS-2`というエンコーディング方式[^1]がでてきますが、`UCS-2`はBMPしか扱えません。
-つまり、今回のエラーは、第1面以降に属するUnicodeを、第0面しか扱えないUCS-2で処理しようとしたから発生したと考えられます。
+つまり、今回のエラーは、第1面以降に属するUnicodeを、第0面しか扱えない`UCS-2`で処理しようとしたから発生したと考えられます。
 ### 2. 解決策
 このエラーを解消するにはどうしたらよいでしょうか？
-[提示されたリンク先](https://stackoverflow.com/questions/32442608/ucs-2-codec-cant-encode-characters-in-position-1050-1050)の回答者であるMartijn Pietersさんは、
+[提示されたリンク先](https://stackoverflow.com/questions/32442608/`UCS-2`-codec-cant-encode-characters-in-position-1050-1050)の回答者であるMartijn Pietersさんは、
 エラー元の文字列(Unicode)に対して第一面以降に属するUnicodeを、
 第0面に属する適当なUnicode(今回は代替文字である`U+FFFD`を使った)に置換することで解決しようとしました。
 Pythonで扱える以上のUnicodeは変換対象とする意味はないので、変換範囲は第1面の最初のUnicodeのコードポイントから
-Pythonで扱える最大のUnicodeのコードポイント(`sys,maxunicode`で得られる)に限定しています。
+Pythonで扱える最大のUnicodeのコードポイント(`sys.maxunicode`で得られる)に限定しています。
 またこうした変換を実際に行うため、Martijn Pietersさんはコードポイント[^2]を文字列置換に利用する`translate`関数を使っています。
 この関数は `{'変換対象のUnicodeのコードポイント':'変換先のUnicodeのコードポイント'}`となる`dict`を引数に渡して使用するもので、
-例えば、第1面に属するU+1F44Dを代替文字U+FFFDに変換するには、
+例えば、第1面に属する`U+1F44D`を代替文字`U+FFFD`に変換するには、
 ```
@@ -55,11 +55,11 @@
 以上から、`non_bmp_map`は、上述した問題を解消するために用意された
-UCS-2が扱えないUnicode(すなわちBMP以外のUnicode)のコードポイントを
+`UCS-2`が扱えないUnicode(すなわちBMP以外のUnicode)のコードポイントを
-UCS-2でも扱えるUnicode(今回は代替文字U+FFFD)のコードポイントに置き換えるための`dict`
+`UCS-2`でも扱えるUnicode(今回は代替文字`U+FFFD`)のコードポイントに置き換えるための`dict`
 であるということがわかります。
-[^1]: UCS-2は符号化文字集合の一種としての定義もありますが、符号化方式の名称としても用いられるようです。
+[^1]: `UCS-2`は符号化文字集合の一種としての定義もありますが、符号化方式の名称としても用いられるようです。
 [^2]: コードポイントとはUnicodeひとつひとつに振られている番号のことです。

誤記の訂正

2017/09/06 18:30

投稿

退会済みユーザー

スコア0

answer CHANGED Viewed

@@ -1,31 +1,3 @@
-1. 問題の所在
-`print()`は何をする関数なのか?
-=> 与えられた文字列を、適切な形にエンコードしてターミナルに書き込む/stdoutに書き込む
-`print()`で`UnicodeEncodeError`が発生したということは、書き込む直前に失敗したということ
-なぜ失敗したかというと、与えられた文字列の中にUCS-2で扱える文字集合の範囲を超えるUnicodeが入っていたから。
-つまりUCS-2はUnicodeの中でも、BMPと呼ばれる第0面(plain)しか扱えず、与えられた文字列の中には第1面以降に存在するUnicode
-が入っていたため、エンコードできなかったと考えられる。
-では、どうすればよいか。
-Stackoverflowでの回答者は、第一面以降のUnicodeを第0面に存在する代用文字で置き換えることによって
-この問題を回避している。
-修正がやや不十分です。
-質問文からだけでは前半のコード例とprint関数との関係を読み取ることができません。
 > ただdict型non_bmp_mapが何者なのかいまいちわかっていないので、もし出来れば教えていただきたいです。m(_ _)m
 端的に言えば、

誤記の訂正

2017/09/04 07:32

投稿

退会済みユーザー

スコア0

answer CHANGED Viewed

@@ -1,3 +1,31 @@
+1. 問題の所在
+`print()`は何をする関数なのか?
+=> 与えられた文字列を、適切な形にエンコードしてターミナルに書き込む/stdoutに書き込む
+`print()`で`UnicodeEncodeError`が発生したということは、書き込む直前に失敗したということ
+なぜ失敗したかというと、与えられた文字列の中にUCS-2で扱える文字集合の範囲を超えるUnicodeが入っていたから。
+つまりUCS-2はUnicodeの中でも、BMPと呼ばれる第0面(plain)しか扱えず、与えられた文字列の中には第1面以降に存在するUnicode
+が入っていたため、エンコードできなかったと考えられる。
+では、どうすればよいか。
+Stackoverflowでの回答者は、第一面以降のUnicodeを第0面に存在する代用文字で置き換えることによって
+この問題を回避している。
+修正がやや不十分です。
+質問文からだけでは前半のコード例とprint関数との関係を読み取ることができません。
 > ただdict型non_bmp_mapが何者なのかいまいちわかっていないので、もし出来れば教えていただきたいです。m(_ _)m
 端的に言えば、
@@ -17,7 +45,7 @@
 日常的に使う文字のうち大部分は第0面(BMPとも呼ばれる)に存在しますが、
 絵文字はUnicodeでは一部、第1面以降に属します。
-ところで、Unicodeの表し方としてはUCS-2とUCS-4とがありますが、UCS-2はBMPしか扱えません。
+ところで、質問文中のエラーメッセージには`USC-2`というエンコーディング方式[^1]がでてきますが、UCS-2はBMPしか扱えません。
 つまり、今回のエラーは、第1面以降に属するUnicodeを、第0面しか扱えないUCS-2で処理しようとしたから発生したと考えられます。
 ### 2. 解決策
@@ -30,7 +58,7 @@
 Pythonで扱える以上のUnicodeは変換対象とする意味はないので、変換範囲は第1面の最初のUnicodeのコードポイントから
 Pythonで扱える最大のUnicodeのコードポイント(`sys,maxunicode`で得られる)に限定しています。
-またこうした変換を実際に行うため、Martijn Pietersさんはコードポイント[^1]を文字列置換に利用する`translate`関数を使っています。
+またこうした変換を実際に行うため、Martijn Pietersさんはコードポイント[^2]を文字列置換に利用する`translate`関数を使っています。
 この関数は `{'変換対象のUnicodeのコードポイント':'変換先のUnicodeのコードポイント'}`となる`dict`を引数に渡して使用するもので、
 例えば、第1面に属するU+1F44Dを代替文字U+FFFDに変換するには、
@@ -61,4 +89,5 @@
 であるということがわかります。
+[^1]: UCS-2は符号化文字集合の一種としての定義もありますが、符号化方式の名称としても用いられるようです。
-[^1]: コードポイントとはUnicodeひとつひとつに振られている番号のことです。
+[^2]: コードポイントとはUnicodeひとつひとつに振られている番号のことです。