unicode マルチバイトについて

Question

文字列についてどうしてもわからないことがあります
visualstadioでは unicode マルチバイト文字を切り替えられる仕組みがあり
printf("%c", 81); //81は文字コード(JIS1バイトの)　
上記を実行したときunicode マルチバイト両方ともJISコードの結果が出てしまします
マルチバイトはJISコードが適用されるみたいですが、
unicodeがなぜJISコードをt読み取っているのかがわかりかねています。

また日本語を表示しようとしたとき2バイトで表現すると思いますが、
2つの16進数をprintfで表現しようとする場合どうやるのかもおしえていただきたいです！
printf(%c, 0x15????) ←　おそらくこんな感じかと思いますが????部分がわからないです。

正直文字列を入れるだけなら const char* や string で十分ですが、
文字の勉強もかねて　文字コードで文字を出したいと思い質問いたしました。
よろしくお願いいたします！

Accepted Answer

ワイド文字をプリントするなら wprinf じゃないかしら ```C #include #include int main() { setlocale(LC_ALL, "japanese"); wprintf(L"[%c] ", L'あ'); return 0; } ``` ```C++ #include #include int main() { std::wcout.imbue(std::locale("japanese")); std::wcout << L'[' << L'あ' << L"] "; } ```

Answer

既に出ている回答で良いかと思いますが、、、

> また日本語を表示しようとしたとき2バイトで表現すると思いますが、
2つの16進数をprintfで表現しようとする場合どうやるのかもおしえていただきたいです！
printf(%c, 0x15????) ←　おそらくこんな感じかと思いますが????部分がわからないです。 

日本語を扱う場合の文字コードですが、幾つかあります。
- Shift-JIS コード
 これは、1byte と2byteの混在で、1byteで、半角文字(英数字、半角カナ等)と2byteで、漢字かなを表します。 (コードが重複しないように割り当て)
- UTF-8 (Unicode)
これは、複数byteでの表現となり、1byte(0-128)の範囲は、maisymakunさんの指摘通り。日本語などを扱う場合は、2byte以上必要となります。(例えば、'あ' : 0xE38182)
- UTF-16 (Unicode)
こちらも複数byteでの表現ですが、基本は、2byte固定。('あ' : 0x3042)

他にもいくつかあります。
で、実際にどうするかは、epistemeさんの回答になるのでは、と思います。

また、実際の内部コードで扱うのは、ちょっと大変。

-----
(古い)Cでの出力について、
- Shift-JIS
  `printf("%c%c
", 0x82, 0xA0);`

- UTF-8
`printf("%c%c%c
", 0xE3, 0x81, 0x82);`
 コマンドプロンプトでは、`chcp 65001` で確認

- UTF-16
`printf("%c%c
", 0x42, 0x30);`
 コマンドプロンプトでは、`chcp 1200` と思ったのですが、ダメみたいです。

参考までに。

Answer

次のコードは参考になりますか？ ```C #include #include int main(void) { setlocale(LC_CTYPE, ""); char mbs[] = "abcあいう"; // multibyte string wchar_t wcs[] = L"abcあいう"; // wide character string printf("mbs ="); for (int i = 0; ; i++) { printf(" %02x", mbs[i] & 0xff); if (mbs[i] == 0) break; } printf(" wcs ="); for (int i = 0; ; i++) { printf(" %04x", wcs[i] & 0xffff); if (wcs[i] == 0) break; } printf(" mbs = [%s] ", mbs); printf("wcs = [%ls] ", wcs); printf("mbs[0] = %c, mbs[3] mbs[4] = %c%c ", mbs[0], mbs[3], mbs[4]); printf("wcs[0] = %lc, wcs[3] = %lc ", mbs[0], wcs[3]); } ``` 実行結果 ```Plain text mbs = 61 62 63 82 a0 82 a2 82 a4 00 wcs = 0061 0062 0063 3042 3044 3046 0000 mbs = [abcあいう] wcs = [abcあいう] mbs[0] = a, mbs[3] mbs[4] = あ wcs[0] = a, wcs[3] = あ ``` **追記** > このプログラムって 3042が「あ」の文字コードですよね？できればこの文字コードをprintfなどに代入して「あ」と出力したいとおもっておりまして逆はできないのでしょうか？逆の意味がよく分かりませんが、上のプログラムで、wcs[3] のコード 3042 を %lc で「あ」と出力しています。次のコードは理解できますか？ ```C #include #include int main(void) { setlocale(LC_CTYPE, ""); printf("0x3042 = %lc ", 0x3042); printf("L'あ' = %#x ", L'あ'); } ``` 実行結果 ```Plain text 0x3042 = あ L'あ' = 0x3042 ``` 理解できてもできなくても返事をお待ちしております。

Answer

> unicodeがなぜJISコードをt読み取っているのかがわかりかねています。

シフトJISでもUTF-8でも、最初128バイトは**ASCII**領域なので、文字としては共通です。

関連した質問