回答編集履歴

1

修正

2016/11/06 04:47

投稿

ikedas
ikedas

スコア4306

test CHANGED
@@ -38,7 +38,7 @@
38
38
 
39
39
  ユニコードは、それまで主に国・地域別に制定されていた文字コード規格とは別の文字コード規格です。多くの従来文字コードの符号化文字集合を取り込んでいますが、全体として文字と符号の対応付けなどに従来文字コードとの互換性はありません。
40
40
 
41
- 符号化文字集合としてのユニコードは、文字のひとつひとつに重複しない整数を対応付けています (ユニコードスカラ値と呼びます)。たとえば`U+5B57`は16進数の5B57が対応付けられた文字である「[字](http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=5B57)」を指します。この文字は日本・韓国・中国本土・香港・台湾・ベトナムの文字コード規格に共通して含まれますが、符号に共通性はありません。ユニコードスカラ値はU+0000からU+10FFFFまでが許されているため、ユニコードに収録されたすべての文字を扱うには内部的にすくなくとも21ビットのデータサイズが必要です。
41
+ 符号化文字集合としてのユニコードは、文字のひとつひとつに重複しない整数を対応付けています (ユニコードスカラ値と呼びます)。たとえば`U+5B57`は16進数の5B57が対応付けられた文字である「[字](http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=5B57)」を指します。この文字は日本・韓国・北朝鮮・中国本土・香港・台湾・ベトナムの文字コード規格に共通して含まれますが、符号に共通性はありません。ユニコードスカラ値はU+0000からU+10FFFFまでが許されているため、ユニコードに収録されたすべての文字を扱うには内部的にすくなくとも21ビットのデータサイズが必要です。
42
42
 
43
43
  一方、ユニコードの文字符号化方式としては[UTF-16](https://ja.wikipedia.org/wiki/UTF-16)、[UTF-32](https://ja.wikipedia.org/wiki/UTF-32)、[UTF-7](https://ja.wikipedia.org/wiki/UTF-7)、[UTF-8](https://ja.wikipedia.org/wiki/UTF-8)などがあります (UCS-2やUCS-4は文字符号化方式ではなく符号化文字集合の内部表現と考えるべきです)。このうちよく使われるのがUTF-8とUTF-16です。
44
44