編集履歴

回答編集履歴

推敲

2021/01/27 15:14

投稿

スコア2074

answer CHANGED Viewed

@@ -5,10 +5,29 @@
 その後、全然文字数足らんじゃないかと騒動になり文字集合が 32ビットとなった。
-これまでの符号化方式をなかったことにするわけにはいかない、とはいえ 16ビットでは
+これまでの符号化方式をなかったことにするわけにはいかない、とはいえ
-収まらない。なので符号化方式に無理やりサロゲートペアを追加したが、それを UTF-16
+16ビットでは収まらない。なので符号化方式に無理やりサロゲートペアを
+追加したが、それを UTF-16と呼びましょうということにした (ここで
-と呼びましょうということにした (ここではじめて文字集合と符号化方式のコード体系が分かれた)。
+はじめて文字集合と符号化方式のコード体系が分かれた)。
-UTF-8 や UTF-32 は 32ビット化騒動以降にできたものなので、サロゲートペアというしくみはない。
+UTF-8 や UTF-32 は 32ビット化騒動以降にできたものなので、
+サロゲートペアという変なしくみはない。
+ちなみに UCS-4(文字集合) と UTF-8 (符号化方式) の対応はこんな感じです。
+```
+UCS-4 (16進数)          UTF-8 (2進数)
+-----------------       ---------------------------------------
+00000000-0000007F	0xxxxxxx
+00000080-000007FF	110xxxxx 10xxxxxx
+00000800-0000FFFF	1110xxxx 10xxxxxx 10xxxxxx
+00010000-001FFFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
+```
+16進数の 7 は 3bit、F は 4bit で表現できるので、
+例えば UCS-4 の 000007FF は 3bit+4bit+4bit＝11bit。
+対する右側 2進数の x の個数は 11個なので、11bit。
+よって、UCS-4 のビットを少々移動するだけで UTF-8 になります。
+これが UTF-8 にはサロゲートペアという変な仕組みはない、ということです。
 以上、お詳しい方がみたら怒られそうな不正確な表現がたくさんあると思いますので、雰囲気だけお感じいただければと思います。

推敲

2021/01/27 15:14

投稿

68user

スコア2074

answer CHANGED Viewed

@@ -5,7 +5,9 @@
 その後、全然文字数足らんじゃないかと騒動になり文字集合が 32ビットとなった。
+これまでの符号化方式をなかったことにするわけにはいかない、とはいえ 16ビットでは
-当然 16ビットでは収まらないので符号化方式に無理やりサロゲートペアを追加したが、それを UTF-16 と呼びましょうという話になった。
+収まらない。なので符号化方式に無理やりサロゲートペアを追加したが、それを UTF-16
+と呼びましょうということにした (ここではじめて文字集合と符号化方式のコード体系が分かれた)。
 UTF-8 や UTF-32 は 32ビット化騒動以降にできたものなので、サロゲートペアというしくみはない。

推敲

2021/01/27 15:06

投稿

68user

スコア2074

answer CHANGED Viewed

@@ -5,7 +5,7 @@
 その後、全然文字数足らんじゃないかと騒動になり文字集合が 32ビットとなった。
-当然 16ビットでは収まらないので無理やりサロゲートペアを追加したが、それを UTF-16 と呼びましょうという話いなった。
+当然 16ビットでは収まらないので符号化方式に無理やりサロゲートペアを追加したが、それを UTF-16 と呼びましょうという話になった。
 UTF-8 や UTF-32 は 32ビット化騒動以降にできたものなので、サロゲートペアというしくみはない。