UTF-16 の「サロゲートペア」について

Unicodeにおいて、UTF-8でも複数符号単位を使って表現する文字があるにも関わらず、UTF-16だけ2符号単位で文字を表現するときにはサロゲートペアという呼び名が付けられてるのは何故でしょうか。

行動規範の内容に同意します

回答1件

ベストアンサー

Unicode 登場時点って、文字集合と符号化方式がイコールだったんですよ。
文字集合は16ビット。符号化方式も文字集合のコード体系と同じ。
なので最初は UTF-16 という言葉さえなかった。
例えば「あ」は U+3042。いまで言う UTF-16 でも 0x3042。同じ。

その後、全然文字数足らんじゃないかと騒動になり文字集合が 32ビットとなった。

これまでの符号化方式をなかったことにするわけにはいかない、とはいえ
16ビットでは収まらない。なので符号化方式に無理やりサロゲートペアを
追加したが、それを UTF-16と呼びましょうということにした (ここで
はじめて文字集合と符号化方式のコード体系が分かれた)。

UTF-8 や UTF-32 は 32ビット化騒動以降にできたものなので、
サロゲートペアという変なしくみはない。

ちなみに UCS-4(文字集合) と UTF-8 (符号化方式) の対応はこんな感じです。

UCS-4 (16進数)          UTF-8 (2進数)
-----------------       ---------------------------------------
00000000-0000007F	0xxxxxxx
00000080-000007FF	110xxxxx 10xxxxxx
00000800-0000FFFF	1110xxxx 10xxxxxx 10xxxxxx
00010000-001FFFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx