編集履歴

回答編集履歴

Windowsメモ帳の出力が間違っていたので修正

2018/04/25 07:45

投稿

スコア13707

answer CHANGED Viewed

@@ -11,9 +11,9 @@
 といったものがあります。実際に文字コードとして意識するのは、こちらの方です。
 Linux や Mac の世界では、UTF-8 が一般的です（XML も UTF-8 であることが前提となっています）。ですが Windows においては UTF-16 のことを「Unicode」と表現するので、ここを押さえておかないと混乱します。
-※Windows の「メモ帳」の「Unicodeテキスト」は、UTF-16BE です
 さらにいうと、UTF-16 と UTF-32 には、エンディアン（多バイトを表すストリームの場合に、どちらが上位バイトになるかを決める）が絡みます。古くからの慣習に従い、Big Endian と Little Endian になっていますが、特にプロトコルなどで強制しない場合は Big Endian であると仮定されます。（明示的にエンディアンを表すための Byte Order Mark もあります）
+※Windows の「メモ帳」の「Unicode」はUTF-16LE、「Unicode big endian」はUTF-16BE です
 「あ」は、
 Unicode: U+3042

各符号化における「あ」のコードを例示。エンディアンについて補足

2018/04/25 07:45

投稿

tacsheaven

スコア13707

answer CHANGED Viewed

@@ -10,4 +10,15 @@
 * UTF-32　（4byte で１文字を表す）
 といったものがあります。実際に文字コードとして意識するのは、こちらの方です。
-Linux や Mac の世界では、UTF-8 が一般的です（XML も UTF-8 であることが前提となっています）。ですが Windows においては UTF-16 のことを「Unicode」と表現するので、ここを押さえておかないと混乱します。
+Linux や Mac の世界では、UTF-8 が一般的です（XML も UTF-8 であることが前提となっています）。ですが Windows においては UTF-16 のことを「Unicode」と表現するので、ここを押さえておかないと混乱します。
+※Windows の「メモ帳」の「Unicodeテキスト」は、UTF-16BE です
+さらにいうと、UTF-16 と UTF-32 には、エンディアン（多バイトを表すストリームの場合に、どちらが上位バイトになるかを決める）が絡みます。古くからの慣習に従い、Big Endian と Little Endian になっていますが、特にプロトコルなどで強制しない場合は Big Endian であると仮定されます。（明示的にエンディアンを表すための Byte Order Mark もあります）
+「あ」は、
+Unicode: U+3042
+UTF-16: 0x3042　（Unicodeで U+0000～U+FFFF は、UTF-16 と同じコードになる）
+UTF-16BE: 0x3042（UTF-16 は未指定なので Big Endian となります）
+UTF-16LE：0x4230（Little Endian だと順番が逆になる）
+UTF-8:  0xE38182
+となります。

誤字修正

2018/04/25 07:33

投稿

tacsheaven

スコア13707

answer CHANGED Viewed

@@ -5,9 +5,9 @@
 通常 Unicode といった場合は 1. を指します。ですが 2. があるように、「同じ Unicode でも符号化が異なるいくつもの方式がある」のです。
 このいくつもの方式として、
-* UTF-8　（1byte～6byteまでの可変長で１文字を表す）
+* UTF-8　（1byte～4byteまでの可変長で１文字を表す）
 * UTF-16　（2byte で１文字を表す。ただし基本多言語面以外はサロゲートペアを使って4byteで表す）
 * UTF-32　（4byte で１文字を表す）
 といったものがあります。実際に文字コードとして意識するのは、こちらの方です。
-Linux や Mac の世界では、UTF-8 が一般的です。ですが Windows においては UTF-16 のことを「Unicode」と表現するので、ここを押さえておかないと相互に意味が通らなくなります。
+Linux や Mac の世界では、UTF-8 が一般的です（XML も UTF-8 であることが前提となっています）。ですが Windows においては UTF-16 のことを「Unicode」と表現するので、ここを押さえておかないと混乱します。