MINGW64で作ったC++プログラムで正しく日本語を扱いたい

Question

### 実現したいこと MINGW64で作ったC++プログラムで正しく日本語を扱いたい ### 前提 - MSYS2-MINGW64使用(※) - MSVCのRuntimeを使用する - libstdc++を使用する - gccを使用する(~~現状12.2.0~~ →13.2.0) - MSYS2などの環境に依存せず、作成したバイナリは単品で動作する - Windows 10以降はmustで、可能ならそれ以前でも正しく動作させたい - MSYS2環境のbashで動かす場合、環境変数LC_*/LANG/LANGUAGEは未設定とする(LC_CTYPE=ja_JP.UTF-8は可) - 端末(conhost/mintty/etc...)は何でもいいし、適宜設定は変更するものとするが、原則デフォルトの状態で動作すること - 日本語Windowsの場合、システムロケールのコードページは932でも65002でもどちらでも動作するものする - 紐付けられた端末があり、端末への出力が実際にある場合、端末のコードページには追従してもいいし、しなくてもいいが、システムロケールのコードページと端末のコードページのいずれかで入出力できていること ※参考 https://www.msys2.org/docs/environments/ ### 質問 MINGW64で日本語を扱うプログラムをC++で正しく記述する方法を教えてください。何も考えずに実装すると、Hello, worldレベルで正しく動きません。 ### 発生している問題・エラーメッセージ例を2つほど挙げます ※ソースコードは次節参照 #### (1) std::coutに出力するケースビルドと実行(システムロケールはコードページ932でmsys2環境(mintty)で実施) ```bash $ g++ -g -Wall -static hello.cpp -o hello $ env | grep LANG $ env | grep LC LC_CTYPE=ja_JP.UTF-8 $ ./hello 縺薙ｓ縺ｫ縺｡縺ｯ $ ``` msys2環境のminttyの設定はja_JPのUTF-8にしようが、defaultのままにしようが、同じです。一言で言えば、この状態からcmd /c "dir"したときに日本語が化けないのと同様の、CP932→UTF-8の変換が「どこかで」かかっている文字の化け方をしています。 #### (2) std::wcoutに出力するケース ```bash $ g++ -g -Wall -static hellow.cpp -o hellow $ ./hellow $ ``` これは端末以前に何も出力されていないことを示しています。(実際にパイプで繋いでも何も出ていません。) ### 該当のソースコード **hello.cpp(utf-8で保存)** ```C++ #include int main() { std::cout << "こんにちは" << std::endl; return 0; } ``` **hellow.cpp(utf-8で保存)** ```C++ #include int main() { std::wcout << L"こんにちは" << std::endl; return 0; } ``` ### 試したこと #### (1) hexdumpで調べる ```bash $ ./hello | hexdump -C 00000000 e3 81 93 e3 82 93 e3 81 ab e3 81 a1 e3 81 af 0d |................| 00000010 0a |.| 00000011 $ ./hellow | hexdump -C $ ``` MSYS2 bashでパイプで出力する場合、./helloはUTF-8で出力されている MSYS2 bashでパイプで出力する場合、./hellowは何も出力しない #### (2) iconvで調べる ```bash $ ./hello | iconv -f utf-8 -t cp932 ▒▒▒▒ɂ▒▒▒ $ ./hello | iconv -f utf-8 -t cp932 | hexdump -C 00000000 82 b1 82 f1 82 c9 82 bf 82 cd 0d 0a |............| 0000000c $ ``` iconvでシフトJISに変換出力してみたが、さらに文字化けするだけだった hexdumpの結果を見る限り変換は正しく実施されている #### (3) catを噛ませてみる ```bash $ ./hello | cat こんにちは $./hello | cat | hexdump -C 00000000 e3 81 93 e3 82 93 e3 81 ab e3 81 a1 e3 81 af 0d |................| 00000010 0a |.| 00000011 $ env | egrep -E '(LC_|LANG)' LC_CTYPE=ja_JP.UTF-8 $ ``` MSYS2のcatを噛ませると、同じ内容(hexdumpの結果からUTF-8と分かる)でも「なぜか」正しく表示される。 bash/minttyへの出力方法が./helloとcatで異なっていて、その区別から./helloだけCP932→UTF-8変換をかけられていると推測する。 #### (4) cmdから見てみる ```cmd C:\>hello 縺薙ｓ縺ｫ縺｡縺ｯ C:\>hello | C:\msys64\usr\bin\cat こんにちは C:\>chcp 現在のコードページ: 932 C:\>set | findstr LC_ C:\>set | findstr LANG C:\> ``` ※conhost.exe上のcmd.exe(minttyなどMSYS2環境ではなく、純粋なWindows環境) コマンドプロンプトからでも(3)の現象は同様に再現する。また環境変数の影響でもなく、cmdは子プロセスに変換などの細工をしないので、helloは素直にUTF-8で出力していることが確定し、catが単体でUTF-8→CP932の変換をしているということが分かる。 #### (5) 絵文字を出力させてみる ```bash $ cat emoji.cpp #include int main() { std::cout << "😊" << std::endl; return 0; } $ g++ -g -Wall -static emoji.cpp -o emoji $ ./emoji ・ $ ./emoji | cat 😊 $ ./emoji | cat | hexdump -C 00000000 f0 9f 98 8a 0d 0a |......| 00000006 $ ``` 絵文字を表示可能なことから、シフトJISで表示しようとしていないことが分かる。さらに具体的に言えば、bashやcatがパイプからの読み込み時に変換をかけていないこと、受け取ったminttyも変換していないことが分かる。 #### (6) リテラルをシフトJISとしてコンパイルさせる ```bash $ g++ -g -Wall -static -fexec-charset=CP932 hello.cpp -o hello_sjis $ ./hello_sjis こんにちは $ ./hello_sjis | hexdump -C 00000000 82 b1 82 f1 82 c9 82 bf 82 cd 0d 0a |............| 0000000c $ ``` シフトJISとして出力されており、正しく表示されている(minttyはロケールCの文字セットUTF-8)。 #### (7) 依存DLLを調べる ```bash $ ldd hello ntdll.dll => /c/WINDOWS/SYSTEM32/ntdll.dll (0x7fffc4950000) KERNEL32.DLL => /c/WINDOWS/System32/KERNEL32.DLL (0x7fffc4660000) KERNELBASE.dll => /c/WINDOWS/System32/KERNELBASE.dll (0x7fffc2400000) msvcrt.dll => /c/WINDOWS/System32/msvcrt.dll (0x7fffc45c0000) $ ldd `which cat` ntdll.dll => /c/WINDOWS/SYSTEM32/ntdll.dll (0x7fffc4950000) KERNEL32.DLL => /c/WINDOWS/System32/KERNEL32.DLL (0x7fffc4660000) KERNELBASE.dll => /c/WINDOWS/System32/KERNELBASE.dll (0x7fffc2400000) msys-intl-8.dll => /usr/bin/msys-intl-8.dll (0x430b30000) msys-2.0.dll => /usr/bin/msys-2.0.dll (0x180040000) msys-iconv-2.dll => /usr/bin/msys-iconv-2.dll (0x5603f0000) $ ldd `which bash` ntdll.dll => /c/WINDOWS/SYSTEM32/ntdll.dll (0x7fffc4950000) KERNEL32.DLL => /c/WINDOWS/System32/KERNEL32.DLL (0x7fffc4660000) KERNELBASE.dll => /c/WINDOWS/System32/KERNELBASE.dll (0x7fffc2400000) USER32.dll => /c/WINDOWS/System32/USER32.dll (0x7fffc3a60000) win32u.dll => /c/WINDOWS/System32/win32u.dll (0x7fffc2970000) msys-2.0.dll => /usr/bin/msys-2.0.dll (0x180040000) GDI32.dll => /c/WINDOWS/System32/GDI32.dll (0x7fffc32e0000) gdi32full.dll => /c/WINDOWS/System32/gdi32full.dll (0x7fffc20c0000) msvcp_win.dll => /c/WINDOWS/System32/msvcp_win.dll (0x7fffc2360000) ucrtbase.dll => /c/WINDOWS/System32/ucrtbase.dll (0x7fffc2260000) $ ``` catやbashなどはmsys-2.0.dllをリンクしており、MSYS2ランタイムで動作しているのが分かる。 helloはMINGW64プログラムなのでMSYS2ランタイムで動作していない。以上から標準入出力の繋がり方が、MSYS2ランタイムを使ったもの同士とそれ以外で異なるのではないかと推測している。パイプの場合はbashとcmdで違うのではないかと推測している。 #### (8) wcoutの設定 ```bash $ cat hellow2.cpp #include int main() { std::wcout.imbue(std::locale("")); std::wcout << L"こんにちは" << std::endl; return 0; } $ g++ -g -Wall -static hellow2.cpp -o hellow2 $ ./hellow2.exe terminate called after throwing an instance of 'std::runtime_error' what(): locale::facet::_S_create_c_locale name not valid $ ``` システムロケールへの設定はできない→wcoutは使えない (https://stackoverflow.com/a/20181564)。より正確にはwcoutは日本語の出力ができない。libstdc++がgnuモデル以外(今回はgeneralモデル)での変換を実装していないため。 #### (9) 調べたことまとめ上記から、MINGW64で正しく日本語を扱うには、 - wcoutを使わず、coutを使う - msvcrtかWindowsAPIか外部ライブラリなどを使って自分でエンコーディングを(システムロケールのコードページか端末のコードページに)変換する - リテラルをマルチバイトの固定エンコーディングにする(シフトJISなど)とワイド文字経由のコードページ変換が2度必要になり、手間がかかるため、ワイド文字列のリテラルか、u8プレフィックス付きを使うべき(ただしC++20でchar型での扱いができなくなる) なのかと思うただマルチバイト(cout)にすると、 - 入出力時に変換が必要になり、わざわざマルチバイトにして出力した文字列をWin32側でまたワイド文字列に戻すなどの処理が入りそうこれはそもそもWriteConsoleWがワイド文字列を受け取れるから。普段使いしてる人の正しい日本語の扱い方を知りたい ### 補足情報（FW/ツールのバージョンなど） msys/msys2-runtime ~~3.4.6-2~~ → 3.4.10-2 ※デバッグ用のシンボル情報が欲しくて最新バージョンに更新してビルドしました(2023/12/18)。

Accepted Answer

さらに回答欄使います。続きですが、一応これで最後のはず。 ### 以上を踏まえた私見 Linuxなどを始めとするUnixライクOSではUTF-8一色だが、WindowsはシステムロケールそのものがもうシフトJISで、それこそ無印の文字列リテラルを入れてVC++でビルドするだけで自動でシフトJISが埋め込まれて増殖する。そして2023年12月19日現在も、**システムロケールをUTF-8に変更することがベータ機能**であることに変わりがない。標準の仕組みでそれをUTF-8に変換する方法はC言語の標準関数を使用し、ワイド文字を経由してロケールを変更する以外になく、近い将来にシステムロケールが変更されるまでの間、現状のMINGW64の選択は、そこまで悪くないように思う(むしろこんな状況なのにcodecvtを優先度低にしてる方が問題だと思う)。genericではなくgnuを用いているLinuxなどでは、CとC++のlocaleは正しく分離されているものの、基本的には自前のCランタイムを使用して変換されており、標準関数に近いものの(スレッドごとに独立したlocaleを切り替えて使用する)、拡張された関数の使用が認められる。MINGW64でLinuxと同様に実装するなら、gccの同オプションにMSVCRT/UCRT専用の実装が必要となるはず。なお、Cロケールにcodeconvに独自実装を加えたfacetを指定して新しいロケールを自作する方法もあるが、codecvtがC++17からdeprecatedになってる昨今、そこまでして拡張Cロケールのようなものを作るくらいなら、iconvなどを用いたマルチバイト文字列同士の変換の仕組みを独自に用意した方が分かりやすい気がする。ただLinuxもWindowsもロケールをCとC++で分けているので、そこを問題視してMINGW64でもimbueを使えるようにする可能性はあるのかもしれない。以上から、MINGW64(MSVCRT)環境で日本語を使用するのはかなり厳しい。 #### (A)案安全側に振るなら、Cロケールを使用してC/C++のロケールには触らず、iconvやicuやWindows API(Windows固定になるけど)などを使ったマルチバイト文字列間の自前のエンコーディング変換システムを作るかどこかから持ってくるのが良いと思う。入出力時にはシステムロケールに自前で合わせればいい。変換方法が汎用なら他の環境でも動作する。MSVCRTのmbstowcs/wcstombsでもUTF-8が使えないだけなので、その部分を自作してロケールを切り替える処理を入れれば標準関数だけで記述可能だと思う。 #### (B)案安全面を軽視し、標準側に寄せるなら、stdioと同期させず、ワイド文字列で実装するのが良いと思う。ただしシステムロケールがUTF-8になったらUCRT64に移行する必要があるし、(UCRT64でも)ストリームごとにロケールを変えることができないし、**そもそも質問の前提を満たしていない**。UCRT64に移行する前提のときのみ選べる。また標準関数しか使ってない割に**他の環境では動作しない**(stdioと同期しないのにCのロケールを使って変換するから)。UCRT64に移行して同期をするならいい案だと思う。 #### (C)案現行仕様では正しいものの、作業量も多くて、将来的には足場から崩落が決まっているcodecvtを使う方法もなくはない。C++的にはこれが唯一正しい方法なので。ただし問題も顕在化しており、廃止予定である。変換方法が汎用なら他の環境でも動作する。 #### 各サンプルコード **A案** ```cpp #include #include #include using namespace std; struct myconv { static string convert(const string& s, UINT from, UINT to) { if (from == to) return s; auto len = MultiByteToWideChar(from, 0, s.c_str(), s.length(), nullptr, 0); if (len == 0) return ""; vector wv(len); len = MultiByteToWideChar(from, 0, s.c_str(), s.length(), wv.data(), wv.size()); if (len == 0) return ""; len = WideCharToMultiByte(to, 0, wv.data(), wv.size(), nullptr, 0, nullptr, nullptr); if (len == 0) return ""; vector bv(len); len = WideCharToMultiByte(to, 0, wv.data(), wv.size(), bv.data(), bv.size(), nullptr, nullptr); if (len == 0) return ""; bv.resize(len); return string(bv.data(), bv.size()); } }; int main() { auto cp = GetACP(); string line; while (getline(cin, line)) { string uline = myconv::convert(line, cp, 65001); string::size_type pos = string::npos; string s("本"); while ((pos = uline.find(s)) != string::npos) { uline.erase(pos, s.length()); } cout << myconv::convert(uline, 65001, cp) << endl; } return 0; } ``` **B案** ```cpp #include using namespace std; int main() { ios_base::sync_with_stdio(false); setlocale(LC_CTYPE, ""); wstring line; while (getline(wcin, line)) { wstring::size_type pos = wstring::npos; wstring s(L"本"); while ((pos = line.find(s)) != wstring::npos) { line.erase(pos, s.length()); } wcout << line << endl; } return 0; } ``` **C案** ```cpp #include // http://www17.plala.or.jp/KodamaDeveloped/LetsProgramming/details_how_to_develop_japanese_application_codecvt_facet_source.html #include "TMyCodeCvt.h" using namespace std; int main() { ios_base::sync_with_stdio(false); auto loc = locale( locale(), new TMyCodeCvt>()); std::wcout.imbue(loc); std::wcin.imbue(loc); wstring line; while (getline(wcin, line)) { wstring::size_type pos = wstring::npos; wstring s(L"本"); while ((pos = line.find(s)) != wstring::npos) { line.erase(pos, s.length()); } wcout << line << endl; } return 0; } ``` サンプルコードはこんな感じで使います。 ```bash $ (echo "日本ホン本本語";echo "ほげ") | iconv -t cp932 | ./example_c.exe 日ホン語ほげ $ ``` ---- 今回解決させて頂いたのはアカウント削除予定だからで、明確な結論が出たわけではないことをお詫びいたします。

Answer

さらに回答欄使います。続きです。 ### MINGW64での同期しないC言語ロケールによる日本語変換の挙動確認先の実験で作成した./test_sync_with_stdio_false_wcout.exeをgdbで実行し、WideCharToMultiByteでブレークさせ、コールスタックを表示したのが以下。 ```gdb (gdb) where #0 0x00007ffe8e955e40 in WideCharToMultiByte () from C:\WINDOWS\System32\kernel32.dll #1 0x00007ffe392d2dc8 in __wcrtomb_cp (dst=dst@entry=0x5ffc00 "\020", wc=, wc@entry=97 L'a', cp=, mb_max=mb_max@entry=2) at C:/M/B/src/mingw-w64/mingw-w64-crt/misc/wcrtomb.c:35 #2 0x00007ffe392d2e25 in wcrtomb (dst=, wc=97 L'a', ps=) at C:/M/B/src/mingw-w64/mingw-w64-crt/misc/wcrtomb.c:52 #3 0x00007ffe3933303a in std::codecvt::do_out ( this=0x7ffe39444a20 <(anonymous namespace)::codecvt_w>, __state=@0x7ffe394452e0: 0, __from=0xd77000 L"abc日本語 (省略)"..., __from_end=0xd7700e L"(省略)"..., __from_next=@0x5ffc18: 0x84001000100010 , __to=0x5ffc00 "\020", __to_end=0x5ffc0e "\020", __to_next=@0x5ffc20: 0x84008400840084 ) at codecvt_members.cc:65 #4 0x00007ffe39315620 in std::__codecvt_abstract_base::out ( this=0x7ffe39444a20 <(anonymous namespace)::codecvt_w>, __state=@0x7ffe394452e0: 0, __from=0xd77000 L"abc日本語 (省略)"..., __from_end=0xd7700e L"(省略)"..., __from_next=@0x5ffc18: 0x84001000100010 , __to=0x5ffc00 "\020", __to_end=0x5ffc0e "\020", __to_next=@0x5ffc20: 0x84008400840084 ) at C:/msys64/home/user/mingw/src/MINGW-packages/mingw-w64-gcc/src/build-MINGW64/x86_64-w64-mingw32 /libstdc++-v3/include/bits/codecvt.h:124 #5 0x00007ffe393a3991 in std::basic_filebuf >::_M_convert_to_ext ernal (this=0x7ffe39445280 <__gnu_internal::buf_wcout>, __ibuf=0xd77000 L"abc日本語 (省略)"..., __ilen=7) at C:/msys64/home/user/mingw/src/MINGW-packages/mingw-w64-gcc/src/build-MINGW64/x86_64-w64-ming w32/libstdc++-v3/include/bits/fstream.tcc:626 #6 0x00007ffe393a50e6 in std::basic_filebuf >::overflow ( this=0x7ffe39445280 <__gnu_internal::buf_wcout>, __c=65535) at C:/msys64/home/user/mingw/src/MINGW-packages/mingw-w64-gcc/src/build-MINGW64/x86_64-w64-ming w32/libstdc++-v3/include/bits/fstream.tcc:568 #7 0x00007ffe393a418a in std::basic_filebuf >::sync ( this=0x7ffe39445280 <__gnu_internal::buf_wcout>) at C:/msys64/home/user/mingw/src/MINGW-packages/mingw-w64-gcc/src/build-MINGW64/x86_64-w64-ming w32/libstdc++-v3/include/bits/fstream.tcc:1016 #8 0x00007ffe393bc993 in std::basic_streambuf >::pubsync ( this=0x7ffe39445280 <__gnu_internal::buf_wcout>) at C:/msys64/home/user/mingw/src/MINGW-packages/mingw-w64-gcc/src/build-MINGW64/x86_64-w64-ming w32/libstdc++-v3/include/streambuf:278 #9 0x00007ffe393adb2d in std::basic_ostream >::flush ( this=0x7ffe394464a0 ) at C:/msys64/home/user/mingw/src/MINGW-packages/mingw-w64-gcc/src/build-MINGW64/x86_64-w64-ming w32/libstdc++-v3/include/bits/ostream.tcc:237 #10 0x00007ffe39432518 in std::flush > (__os=...) at C:/msys64/home/user/mingw/src/MINGW-packages/mingw-w64-gcc/src/build-MINGW64/x86_64-w64-ming w32/libstdc++-v3/include/ostream:758 #11 0x00007ffe39430318 in std::endl > (__os=...) at C:/msys64/home/user/mingw/src/MINGW-packages/mingw-w64-gcc/src/build-MINGW64/x86_64-w64-ming w32/libstdc++-v3/include/ostream:736 #12 0x00007ffe393afabd in std::basic_ostream >::operator<< ( this=0x7ffe394464a0 , __pf=0x7ff6931d14c8 >& std::endl >(std::basic_ostream >&)>) at C:/msys64/home/user/mingw/src/MINGW-packages/mingw-w64-gcc/src/build-MINGW64/x86_64-w64-ming w32/libstdc++-v3/include/ostream:115 #13 0x00007ff6931d14a6 in main () at test_sync_with_stdio_false_wcout.cpp:6 (gdb) ``` `std::codecvt::do_out()`から直接`wcrtomb()`が呼ばれていることが分かる。 MINGW64では普通にパッケージインストールしてもC++標準ライブラリにシンボル情報はついていないので上のような表示にはならないが、今回はソースからビルドし、デバッグ情報を付けたもの(PKGBUILDの`'!strip' 'debug')`のコメントを外してビルドしたlibstdc++-6.dll)を使って動かしたので、表示されている。想定どおりの挙動であることが確認できた。なお、この`sync_with_stdio(false)`時の挙動はMINGW64だけでなく、UCRT64でも同様で、`std::locale`が"C"以外使用できないのも同様。 `sync_with_stdio(false)`はCとの同期を外して速度アップ効果を期待する使用が普通なので(他にもimbueによるストリームごとにロケールを変えたりなどが可能)、ただしcodecvtはC++17でdeprecateになっており(不要という意味ではなく、仕様に欠陥があり代替品が必要という意味。ただし**非UTFエンコーディングの使用頻度の減少**から優先度低とか)、積極的な使用は控えるべきではある。 https://www.open-std.org/jtc1/sc22/wg21/docs/papers/2017/p0618r0.html > In published usage surveys like BuiltWith, use of formerly popular non-UTF encodings like Shift-JIS and Big5 is plummeting compared to UTF encodings. ### std::wcinについて一応確認だけ。wcoutについてはios_base::sync_with_stdio(false)が前提となるので、それがcinで問題ないのかを確認する。 ```bash for w in "" "w"; do fname="test_cin_locale_$w" cat >${fname}.cpp < using namespace std; int main() { ios_base::sync_with_stdio(false); setlocale(LC_CTYPE, ""); ${w}string s; ${w}cin >> s; ${w}cout << s << endl; return 0; } EOF g++ -g -Wall $fname.cpp -o $fname echo "abc日本語" | iconv -t cp932 | ./$fname done ``` →OK ※このスクリプトでは端末操作になってないが、生成されたバイナリをパイプ/リダイレクトを使用せず手打ちで確認しても同じ結果となった。なお、UCRTではios_base::sync_with_stdio(false)がなくても動作する。MSVC++での確認も軽くしてみたが、Linuxと似たような挙動となっていた。紙面の都合上詳細は省略。 ### MSVCRTのfputwcと_writeの問題について https://teratail.com/questions/fqia83ktejutp3 mingw64では文字出力時、最終的にCのランタイムにMSVCRTを使用するが_writeにはリンク先にあるように、".932"ロケールではテキストストリームに2バイト文字の1バイト目のみを出力しようとするとENOSPCを返す問題がある。これに付随してfputwcは常に失敗するため、wcoutも常に失敗してしまっていた。_writeは何を出力するにしてもWindowsのCRTを使う限り通るので、coutでも失敗する可能性があり、他のロケールでどうなるかも分からないので、以下のスクリプトで調査した。 ```bash for loc in "C" ".932" ".UTF-8"; do for sync_flag in "true" "false"; do for out in "cout" "wcout"; do for alpcnt in 0 4095 4096 4097; do echo "=============================================================" echo "[${loc}_${sync_flag}_${out}_${alpcnt}]" prefix="" if [ "$out" == "wcout" ]; then prefix="L" fi exefile="test_sync_with_stdio_no_abc_${loc}_${sync_flag}_${out}_${alpcnt}" cat >"${exefile}.cpp" < using namespace std; int main() { if (::setlocale(LC_CTYPE, "${loc}") == nullptr) { perror("${exefile}: setlocale failed"); return 1; } ios_base::sync_with_stdio(${sync_flag}); for (size_t i = 0; i < ${alpcnt}; ++i) ${out} << ${prefix}"A"; ${out} << ${prefix}"本"; ${out}.flush(); return 0; } EOF g++ -g -Wall ${exefile}.cpp -o ${exefile} gdb ./${exefile} <

Answer

さらに回答欄使います。 ## UCRTを使用する場合の出力処理解析例外的な現象を原因を調査してみた。使用したのはMSYS2/UCRT64環境。 ```bash cat >hoge.cpp < int main() { std::setlocale(LC_CTYPE, DESIRED_LOCALE); std::cout << "日本語" << std::endl; std::wcout << L"日本語" << std::endl; return 0; } EOF g++ -g -DDESIRED_LOCALE=\".UTF-8\" hoge.cpp -o hoge ./hoge >hoge_utf8_redirected.txt gdb ./hoge <hoge_empty_redirected.txt gdb ./hoge <hoge_c_redirected.txt gdb ./hoge <hoge.cpp < int main() { std::setlocale(LC_CTYPE, DESIRED_LOCALE); std::cout << "日本語" << std::endl; std::wcout << L"日本語" << std::endl; return 0; } EOF g++ -g -DDESIRED_LOCALE=\".UTF-8\" hoge.cpp -o hoge ./hoge gdb ./hoge <ワイド文字列の変換にはAPIを使用しない - コンソール系APIは使用していないため、ワイド文字列で端末出力はしていない例外となる状況の說明が出来た。しかしワイド文字列の出力処理がどう見ても冗長なのが不思議。 UCRTの出力調査としては十分だと思うので、次からは最初の回答に書いた``std::ios_base::sync_with_stdio(false);``とcin/wcin周りをVC++やLinuxも合わせて見てみる。これらが終われば、MINGW64/UCRT64での基本的な使い方が分かるはず。 --- ## MINGW64での日本語出力についてここからはMINGW64(MSVCRT)メインに話を戻します。まずはstdioとの同期を切るだけでwcoutが使える事実に基づき、`std::ios_base::sync_with_stdio`を調査しました。 ### std::ios_base::sync_with_stdioについて https://cpprefjp.github.io/reference/ios/ios_base/sync_with_stdio.html https://en.cppreference.com/w/cpp/io/ios_base/sync_with_stdio C/C++でバッファを同期するかどうかで、実装方法については特別に規定はないありません。ただし、Linux gccだと以下のような動作になっているようです。 - 同期する場合はCの関数を経由してシステムコールから出力される - 同期しない場合は直接システムコールから出力されるなので同期しない場合ワイド文字のストリームはデフォルトロケール("C")だと出力できなくなります。確認用のスクリプトが以下になります。 ```bash for sync_flag in "true" "false"; do for out in "cout" "wcout"; do echo "[${sync_flag}-${out}]" prefix="" if [ "$out" == "wcout" ]; then prefix="L" fi exefile="test_sync_with_stdio_${sync_flag}_${out}" cat >"${exefile}.cpp" < using namespace std; int main() { ::setlocale(LC_CTYPE, ""); ios_base::sync_with_stdio(${sync_flag}); ${out} << ${prefix}"abc日本語" << endl; return 0; } EOF g++ -g -Wall ${exefile}.cpp -o ${exefile} gdb ./${exefile} <test_imbue_different_from_c.cpp < using namespace std; void test() { // ja_JP.SJIS ... シフトJISをこの名前でロケール追加した環境です。 // ja_JP.EUC-JP ... EUCをこの名前でロケール追加した環境です。 std::setlocale(LC_CTYPE, "ja_JP.SJIS"); wcout.imbue(locale("ja_JP.EUC-JP")); wcout << L"日本語" << endl; } int main() { test(); ios_base::sync_with_stdio(false); test(); return 0; } EOF g++ -g -Wall test_imbue_different_from_c.cpp -o test_imbue_different_from_c for enc in "cp932" "euc-jp"; do echo "[$enc]" ./test_imbue_different_from_c | iconv -c -f $enc done ``` #### 結果 ```bash [cp932] 日本語ﾆﾋﾜｸ [euc-jp] { 日本語 ``` #### 考察同期している場合、C側でワイド→マルチバイト文字列変換をしているので、シフトJISで出ていて、imbueは効いていない。同期していない場合、C++だけで処理しているため、ワイド→マルチバイト文字列変換にimbueのロケールが効いている。 MINGW64ではimbueに"C"ロケール以外設定できないので、同期していない場合日本語などのエンコーディングは指定できない。すると同期を切ったときにロケールの設定手段がなくなってしまうので、とりあえずC言語のロケール設定を使っているのかもしれない。またWindowsでは_writeがテキストモードで端末に合わせたエンコーディング変換を行っている挙動を確認したので、ロケール未設定("C")のデメリットが大きいと踏んだのかもしれない。独自のCRTを持てないMINGW64では--enable-clocale=genericにせざるをえない。結果C言語のロケール設定に連動することを許容したのではないかと思う。

Answer

回答欄も足りなくなったので、2個目使います。

システムロケールをUTF-8に変えて先の回答の実験を実施してみました。

## システムロケールUTF-8での結果

|端末コードページ|処理系|出力先|ロケール(C)|リテラル(ソースUTF8)|結果|
|:--:|:--:|:--:|:--:|:--:|:--:|
|932|MINGW64|cout|""|"こんにちは世界！"||
|932|MINGW64|cout|"C"|"こんにちは世界！"|縺薙ｓ縺ｫ縺｡縺ｯ荳也阜・|
|932|MINGW64|cout|".932"|"こんにちは世界！"||
|932|MINGW64|cout|".UTF-8"|"こんにちは世界！"|縺薙ｓ縺ｫ縺｡縺ｯ荳也阜・|
|932|MINGW64|cout|""|"😊"||
|932|MINGW64|cout|"C"|"😊"|・|
|932|MINGW64|cout|".932"|"😊"||
|932|MINGW64|cout|".UTF-8"|"😊"|・|
|932|MINGW64|wcout|""|L"こんにちは世界！"||
|932|MINGW64|wcout|"C"|L"こんにちは世界！"||
|932|MINGW64|wcout|".932"|L"こんにちは世界！"||
|932|MINGW64|wcout|".UTF-8"|L"こんにちは世界！"||
|932|MINGW64|wcout|""|L"😊"||
|932|MINGW64|wcout|"C"|L"😊"||
|932|MINGW64|wcout|".932"|L"😊"||
|932|MINGW64|wcout|".UTF-8"|L"😊"||
|65001|MINGW64|cout|""|"こんにちは世界！"||
|65001|MINGW64|cout|"C"|"こんにちは世界！"|こんにちは世界！|
|65001|MINGW64|cout|".932"|"こんにちは世界！"||
|65001|MINGW64|cout|".UTF-8"|"こんにちは世界！"|こんにちは世界！|
|65001|MINGW64|cout|""|"😊"||
|65001|MINGW64|cout|"C"|"😊"|😊|
|65001|MINGW64|cout|".932"|"😊"||
|65001|MINGW64|cout|".UTF-8"|"😊"|😊|
|65001|MINGW64|wcout|""|L"こんにちは世界！"||
|65001|MINGW64|wcout|"C"|L"こんにちは世界！"||
|65001|MINGW64|wcout|".932"|L"こんにちは世界！"||
|65001|MINGW64|wcout|".UTF-8"|L"こんにちは世界！"||
|65001|MINGW64|wcout|""|L"😊"||
|65001|MINGW64|wcout|"C"|L"😊"||
|65001|MINGW64|wcout|".932"|L"😊"||
|65001|MINGW64|wcout|".UTF-8"|L"😊"||
|932|UCRT64|cout|""|"こんにちは世界！"|こんにちは世界！|
|932|UCRT64|cout|"C"|"こんにちは世界！"|縺薙ｓ縺ｫ縺｡縺ｯ荳也阜・|
|932|UCRT64|cout|".932"|"こんにちは世界！"|縺薙ｓ縺ｫ縺｡縺ｯ荳也阜・|
|932|UCRT64|cout|".UTF-8"|"こんにちは世界！"|こんにちは世界！|
|932|UCRT64|cout|""|"😊"|??|
|932|UCRT64|cout|"C"|"😊"|・|
|932|UCRT64|cout|".932"|"😊"|・|
|932|UCRT64|cout|".UTF-8"|"😊"|??|
|932|UCRT64|wcout|""|L"こんにちは世界！"|こんにちは世界！|
|932|UCRT64|wcout|"C"|L"こんにちは世界！"||
|932|UCRT64|wcout|".932"|L"こんにちは世界！"|こんにちは世界！|
|932|UCRT64|wcout|".UTF-8"|L"こんにちは世界！"|こんにちは世界！|
|932|UCRT64|wcout|""|L"😊"||
|932|UCRT64|wcout|"C"|L"😊"||
|932|UCRT64|wcout|".932"|L"😊"||
|932|UCRT64|wcout|".UTF-8"|L"😊"||
|65001|UCRT64|cout|""|"こんにちは世界！"|こんにちは世界！|
|65001|UCRT64|cout|"C"|"こんにちは世界！"|こんにちは世界！|
|65001|UCRT64|cout|".932"|"こんにちは世界！"|縺薙ｓ縺ｫ縺｡縺ｯ荳也阜・|
|65001|UCRT64|cout|".UTF-8"|"こんにちは世界！"|こんにちは世界！|
|65001|UCRT64|cout|""|"😊"|😊|
|65001|UCRT64|cout|"C"|"😊"|😊|
|65001|UCRT64|cout|".932"|"😊"|・|
|65001|UCRT64|cout|".UTF-8"|"😊"|😊|
|65001|UCRT64|wcout|""|L"こんにちは世界！"|こんにちは世界！|
|65001|UCRT64|wcout|"C"|L"こんにちは世界！"||
|65001|UCRT64|wcout|".932"|L"こんにちは世界！"|こんにちは世界！|
|65001|UCRT64|wcout|".UTF-8"|L"こんにちは世界！"|こんにちは世界！|
|65001|UCRT64|wcout|""|L"😊"||
|65001|UCRT64|wcout|"C"|L"😊"||
|65001|UCRT64|wcout|".932"|L"😊"||
|65001|UCRT64|wcout|".UTF-8"|L"😊"||
|932| MSVC++ |cout|""|"こんにちは世界！"|こんにちは世界！|
|932| MSVC++ |cout|"C"|"こんにちは世界！"|縺薙ｓ縺ｫ縺｡縺ｯ荳也阜・－
|932| MSVC++ |cout|".932"|"こんにちは世界！"|縺薙ｓ縺ｫ縺｡縺ｯ荳也阜・|
|932| MSVC++ |cout|".UTF-8"|"こんにちは世界！"|こんにちは世界！|
|932| MSVC++ |cout|""|"😊"|??|
|932| MSVC++ |cout|"C"|"😊"|・|
|932| MSVC++ |cout|".932"|"😊"|・|
|932| MSVC++ |cout|".UTF-8"|"😊"|??|
|932| MSVC++ |wcout|""|L"こんにちは世界！"|こんにちは世界！|
|932| MSVC++ |wcout|"C"|L"こんにちは世界！"||
|932| MSVC++ |wcout|".932"|L"こんにちは世界！"|こんにちは世界！|
|932| MSVC++ |wcout|".UTF-8"|L"こんにちは世界！"|こんにちは世界！|
|932| MSVC++ |wcout|""|L"😊"||
|932| MSVC++ |wcout|"C"|L"😊"||
|932| MSVC++ |wcout|".932"|L"😊"||
|932| MSVC++ |wcout|".UTF-8"|L"😊"||
|65001| MSVC++ |cout|""|"こんにちは世界！"|こんにちは世界！|
|65001| MSVC++ |cout|"C"|"こんにちは世界！"|こんにちは世界！|
|65001| MSVC++ |cout|".932"|"こんにちは世界！"|縺薙ｓ縺ｫ縺｡縺ｯ荳也阜・|
|65001| MSVC++ |cout|".UTF-8"|"こんにちは世界！"|こんにちは世界！|
|65001| MSVC++ |cout|""|"😊"|😊|
|65001| MSVC++ |cout|"C"|"😊"|😊|
|65001| MSVC++ |cout|".932"|"😊"|・|
|65001| MSVC++ |cout|".UTF-8"|"😊"|😊|
|65001| MSVC++ |wcout|""|L"こんにちは世界！"|こんにちは世界！|
|65001| MSVC++ |wcout|"C"|L"こんにちは世界！"||
|65001| MSVC++ |wcout|".932"|L"こんにちは世界！"|こんにちは世界！|
|65001| MSVC++ |wcout|".UTF-8"|L"こんにちは世界！"|こんにちは世界！|
|65001| MSVC++ |wcout|""|L"😊"||
|65001| MSVC++ |wcout|"C"|L"😊"||
|65001| MSVC++ |wcout|".932"|L"😊"||
|65001| MSVC++ |wcout|".UTF-8"|L"😊"||

## システムロケールCP932で作成したバイナリを、システムロケールUTF-8で実行した結果

|端末コードページ|処理系|出力先|ロケール(C)|リテラル(ソースUTF8)|結果|
|:--:|:--:|:--:|:--:|:--:|:--:|
|932| MSVC++ |cout|""|"こんにちは世界！"||
|932| MSVC++ |cout|"C"|"こんにちは世界！"|こんにちは世界！|
|932| MSVC++ |cout|".932"|"こんにちは世界！"|こんにちは世界！|
|932| MSVC++ |cout|".UTF-8"|"こんにちは世界！"||
|932| MSVC++ |cout|""|"😊"|??|
|932| MSVC++ |cout|"C"|"😊"|??|
|932| MSVC++ |cout|".932"|"😊"|??|
|932| MSVC++ |cout|".UTF-8"|"😊"|??|
|932| MSVC++ |wcout|""|L"こんにちは世界！"|こんにちは世界！|
|932| MSVC++ |wcout|"C"|L"こんにちは世界！"||
|932| MSVC++ |wcout|".932"|L"こんにちは世界！"|こんにちは世界！|
|932| MSVC++ |wcout|".UTF-8"|L"こんにちは世界！"|こんにちは世界！|
|932| MSVC++ |wcout|""|L"😊"||
|932| MSVC++ |wcout|"C"|L"😊"||
|932| MSVC++ |wcout|".932"|L"😊"||
|932| MSVC++ |wcout|".UTF-8"|L"😊"||
|65001| MSVC++ |cout|""|"こんにちは世界！"||
|65001| MSVC++ |cout|"C"|"こんにちは世界！"|ɂ͐EI|
|65001| MSVC++ |cout|".932"|"こんにちは世界！"|こんにちは世界！|
|65001| MSVC++ |cout|".UTF-8"|"こんにちは世界！"||
|65001| MSVC++ |cout|""|"😊"|??|
|65001| MSVC++ |cout|"C"|"😊"|??|
|65001| MSVC++ |cout|".932"|"😊"|??|
|65001| MSVC++ |cout|".UTF-8"|"😊"|??|
|65001| MSVC++ |wcout|""|L"こんにちは世界！"|こんにちは世界！|
|65001| MSVC++ |wcout|"C"|L"こんにちは世界！"||
|65001| MSVC++ |wcout|".932"|L"こんにちは世界！"|こんにちは世界！|
|65001| MSVC++ |wcout|".UTF-8"|L"こんにちは世界！"|こんにちは世界！|
|65001| MSVC++ |wcout|""|L"😊"||
|65001| MSVC++ |wcout|"C"|L"😊"||
|65001| MSVC++ |wcout|".932"|L"😊"||
|65001| MSVC++ |wcout|".UTF-8"|L"😊"||

## システムロケールUTF-8で作成したバイナリを、システムロケールCP932で実行した結果

|端末コードページ|処理系|出力先|ロケール(C)|リテラル(ソースUTF8)|結果|
|:--:|:--:|:--:|:--:|:--:|:--:|
|932| MSVC++ |cout|""|"こんにちは世界！"|縺薙ｓ縺ｫ縺｡縺ｯ荳也阜・|
|932| MSVC++ |cout|"C"|"こんにちは世界！"|縺薙ｓ縺ｫ縺｡縺ｯ荳也阜・－
|932| MSVC++ |cout|".932"|"こんにちは世界！"|縺薙ｓ縺ｫ縺｡縺ｯ荳也阜・|
|932| MSVC++ |cout|".UTF-8"|"こんにちは世界！"|こんにちは世界！|
|932| MSVC++ |cout|""|"😊"|・|
|932| MSVC++ |cout|"C"|"😊"|・|
|932| MSVC++ |cout|".932"|"😊"|・|
|932| MSVC++ |cout|".UTF-8"|"😊"|??|
|932| MSVC++ |wcout|""|L"こんにちは世界！"|こんにちは世界！|
|932| MSVC++ |wcout|"C"|L"こんにちは世界！"||
|932| MSVC++ |wcout|".932"|L"こんにちは世界！"|こんにちは世界！|
|932| MSVC++ |wcout|".UTF-8"|L"こんにちは世界！"|こんにちは世界！|
|932| MSVC++ |wcout|""|L"😊"||
|932| MSVC++ |wcout|"C"|L"😊"||
|932| MSVC++ |wcout|".932"|L"😊"||
|932| MSVC++ |wcout|".UTF-8"|L"😊"||
|65001| MSVC++ |cout|""|"こんにちは世界！"|縺薙ｓ縺ｫ縺｡縺ｯ荳也阜・|
|65001| MSVC++ |cout|"C"|"こんにちは世界！"|こんにちは世界！|
|65001| MSVC++ |cout|".932"|"こんにちは世界！"|縺薙ｓ縺ｫ縺｡縺ｯ荳也阜・|
|65001| MSVC++ |cout|".UTF-8"|"こんにちは世界！"|こんにちは世界！|
|65001| MSVC++ |cout|""|"😊"|・|
|65001| MSVC++ |cout|"C"|"😊"|😊|
|65001| MSVC++ |cout|".932"|"😊"|・|
|65001| MSVC++ |cout|".UTF-8"|"😊"|😊|
|65001| MSVC++ |wcout|""|L"こんにちは世界！"|こんにちは世界！|
|65001| MSVC++ |wcout|"C"|L"こんにちは世界！"||
|65001| MSVC++ |wcout|".932"|L"こんにちは世界！"|こんにちは世界！|
|65001| MSVC++ |wcout|".UTF-8"|L"こんにちは世界！"|こんにちは世界！|
|65001| MSVC++ |wcout|""|L"😊"||
|65001| MSVC++ |wcout|"C"|L"😊"||
|65001| MSVC++ |wcout|".932"|L"😊"||
|65001| MSVC++ |wcout|".UTF-8"|L"😊"||

## 考察

メモ:
- Cロケールは原則変換しないロケールだからなのか、ワイド文字が出力できない可能性がある
- 恐らくMINGW64/UCRT64ともにUTF-8のままリテラルがバイナリに格納されている(Lプレフィックス除く)
- 恐らくVC++はビルド時のシステムロケールに依存したリテラルがバイナリに格納されている(u8, Lプレフィックス除く)
- 恐らくVC++生成バイナリはマルチバイト文字列がロケール設定に従っており、端末などのコードページと一致すると仮定し、変換しない
- 恐らくVC++生成バイナリは~~ロケール設定がUTF-8のとき、端末にワイド文字列として出力する(ワイド用のAPIを使用する)~~ 端末のコードページに変換して出力する
- ~~恐らくVC++生成バイナリはワイド文字列のとき、端末にワイド文字列として出力する(ワイド用のAPIを使用する)~~ 
- 恐らくUCRT64生成バイナリはマルチバイト文字列がロケール設定に従っており、端末などのコードページと一致すると仮定し、変換しない
- 恐らくUCRT64生成バイナリは~~ロケール設定がUTF-8のとき、端末にワイド文字列として出力する(ワイド用のAPIを使用する)~~ 端末のコードページに変換して出力する
- ~~恐らくUCRT64生成バイナリはワイド文字列のとき、端末にワイド文字列として出力する(ワイド用のAPIを使用する)~~
- 恐らくMINGW64生成バイナリはマルチバイト文字列がロケール設定に従っており、端末などのコードページと一致すると仮定し、変換しない
- 恐らくMINGW64生成バイナリはワイド文字列を(そのままでは)出力出来ない
- 一応ちゃんと書いておくとUTF-8ロケールを常に指定した場合、システムロケールに依存した作りをしたアプリケーションとパイプなどでやり取りできない→NG
- 絵文字を含む何かの範囲がワイド文字列で出力できない場合が多く、原因の推測が出来ていない(→これは諦める)
- システムロケール932でビルドしてUTF-8で実行したケースの端末CP65001、MSVC++、cout、".932"、"こんにちは世界！"が、「こんにちは世界！」なのは上のいずれの法則にも従っておらず例外的。法則通りなら932のまま変換もされずにマルチバイト出力されて化けるはず(→次節にて原因判明)

※エラーも出ずに画面も変わらないので、何かサイズ的な問題があるのかもしれず、続きでさらに回答欄を消費します。

Answer

元々自分も簡単に対応する方法を探していて，解決策はmsysのucrt環境を使うことが必要と
思っていて，具体的な方法については分かっていなかったのですが，ようやくネット情報から探り当てました。

paths with non-ASCII chars on Windowsに，setlocale(LC_ALL, "UTF8")を呼ぶべしとの回答があって，この方法を試してみました。

この解決策には前提条件があります。

MINGW64ではなくUCRT64環境を使う
UCRTなのでおそらくWindows 10以降の対応となる
msys2のEnvironmentsの記事の通りlibstdc++を利用する
gccを利用する(UCRT版)
UCRTのbash上では日本語出力OK
コマンドプロンプトではコードページ 932，65001でも日本語出力OK

前準備

比較的新しいmsys2をインストールしているのであれば，UCRT版のビルド環境は比較的簡単だと思います。
msysのどれかのバッチファイルからシェルを起動して，

$ pacman -S --needed mingw-w64-ucrt-x86_64-toolchain

ぐらいでUCRT版のコンパイラがインストールされるのではないでしょうか?

そして，コンパイルはUCRTのシェルを起動してその中で行います。

対策コードと実行例

utf-8のソースリストのmain関数の最初の方にsetlocale(LC_ALL, ".UTF8");を書くだけです。
ヘッダファイルはincludeフォルダからsetlocale関数があるヘッダをgrepで調べただけなので，本当は違うかもしれません。

c++
1#include <iostream>
2#include <locale.h>  // 追加
3int main() {
4  setlocale(LC_ALL, ".UTF8"); // 追加
5  std::cout << "こんにちは" << std::endl;
6  return 0;
7}

コンパイルは普通に質問で提示された方法と同じです。

g++ -g -Wall -static hello.cpp -o hello

最後に手元のWindows 10上での実行例を示します。
lddコマンドでOS以外のdllとリンクしていないのも確認できます。

実際はコマンド引数の扱いとかも調べないといけないと思いますが，調べた内容はこの辺りで。

投稿2023/12/12 11:52

編集2023/12/12 11:54

ujimushi_sradjp

総合スコア2194

Answer

質問への追記が文字数的に困難になってきたので、回答側に記述します。 ## wcoutへの出力についての追加情報とりあえずwcoutへの出力方法を以下のサイトで見つけました。 http://www17.plala.or.jp/KodamaDeveloped/LetsProgramming/details_how_to_develop_japanese_application.html > ```c++ > #include > int main() > { > std::ios_base::sync_with_stdio(false); > //std::locale::global(std::locale{""}); // Doesn't work. > std::setlocale(LC_CTYPE,""); > std::wcout< std::wcout< std::wcout< return 0; > } > ``` 引用した部分だけでなくcodecvt(C++17から非推奨)の自作や、gccの記述などもあり、まだ全部読めてませんが、仕様に対する言及も多くとても参考になりそうです。 ## UCRT64で確認した結果質問に記載した現象を同じ手順でUCRT64で確認した結果を簡単に記載します。 - msys/msys2-runtime 3.4.6-2 - mingw-w64-ucrt-x86_64-gcc 12.2.0-10 ### 発生している問題・エラーメッセージについて (1)(2)ともに同じ ### 試したこと (1)(2)(3)(4)(5)(6)(8)まで同じ (7)はちゃんとUCRT ```bash $ ldd hello ntdll.dll => /c/WINDOWS/SYSTEM32/ntdll.dll (0x7fffa15f0000) KERNEL32.DLL => /c/WINDOWS/System32/KERNEL32.DLL (0x7fff9fbf0000) KERNELBASE.dll => /c/WINDOWS/System32/KERNELBASE.dll (0x7fff9f100000) ucrtbase.dll => /c/WINDOWS/System32/ucrtbase.dll (0x7fff9ecd0000) $ ``` つまりC言語 locale、C++ localeに関係なくlocaleの変更がない状態ではUCRTでも同じ現象になるということのようです。今回は記述しませんがチラ見した感じだとC言語 localeのエンコーディング設定をUTF-8に変更することにより cout / wcoutに関係なく日本語の表示が可能になっていました。UCRTの挙動についてはVC++側でも未確認なので、次回調査時はそちらも合わせてlocale周りを調べてみようかと思っています。(ちまちま更新していく感じになります) ## MSYS2-mintty上でのロケールと各種出力調査 ### 調査用コード ```bash for cp in "932" "65001"; do cmd //c chcp $cp for out in "cout" "wcout"; do if [ "$out" == "wcout" ]; then prefix="L" else prefix="" fi for str in "こんにちは世界！" "😊"; do for loc in "" "C" ".932" ".UTF-8"; do cat >hello_locale_x.cpp < int main() { std::setlocale(LC_CTYPE,"$loc"); std::$out<<$prefix"$str"; return 0; } EOF g++ -g -Wall -static hello_locale_x.cpp -o hello_locale_x echo -n "|$cp|$MSYSTEM|$out|"$loc"|$prefix"$str"|" ./hello_locale_x echo "|" done done done echo press enter read done cmd //c chcp 932 ``` ### 調査結果 |端末コードページ|MSYSTEM|出力先|ロケール(C)|リテラル(ソースUTF8)|結果| |:--|:--:|:--:|:--|:--|:--| |932|MINGW64|cout|""|"こんにちは世界！"|| |932|MINGW64|cout|"C"|"こんにちは世界！"|縺薙ｓ縺ｫ縺｡縺ｯ荳也阜・| |932|MINGW64|cout|".932"|"こんにちは世界！"|| |932|MINGW64|cout|".UTF-8"|"こんにちは世界！"|縺薙ｓ縺ｫ縺｡縺ｯ荳也阜・| |932|MINGW64|cout|""|"😊"|| |932|MINGW64|cout|"C"|"😊"|・| |932|MINGW64|cout|".932"|"😊"|| |932|MINGW64|cout|".UTF-8"|"😊"|・| |932|MINGW64|wcout|""|L"こんにちは世界！"|| |932|MINGW64|wcout|"C"|L"こんにちは世界！"|| |932|MINGW64|wcout|".932"|L"こんにちは世界！"|| |932|MINGW64|wcout|".UTF-8"|L"こんにちは世界！"|| |932|MINGW64|wcout|""|L"😊"|| |932|MINGW64|wcout|"C"|L"😊"|| |932|MINGW64|wcout|".932"|L"😊"|| |932|MINGW64|wcout|".UTF-8"|L"😊"|| |65001|MINGW64|cout|""|"こんにちは世界！"|| |65001|MINGW64|cout|"C"|"こんにちは世界！"|こんにちは世界！| |65001|MINGW64|cout|".932"|"こんにちは世界！"|| |65001|MINGW64|cout|".UTF-8"|"こんにちは世界！"|こんにちは世界！| |65001|MINGW64|cout|""|"😊"|| |65001|MINGW64|cout|"C"|"😊"|😊| |65001|MINGW64|cout|".932"|"😊"|| |65001|MINGW64|cout|".UTF-8"|"😊"|😊| |65001|MINGW64|wcout|""|L"こんにちは世界！"|| |65001|MINGW64|wcout|"C"|L"こんにちは世界！"|| |65001|MINGW64|wcout|".932"|L"こんにちは世界！"|| |65001|MINGW64|wcout|".UTF-8"|L"こんにちは世界！"|| |65001|MINGW64|wcout|""|L"😊"|| |65001|MINGW64|wcout|"C"|L"😊"|| |65001|MINGW64|wcout|".932"|L"😊"|| |65001|MINGW64|wcout|".UTF-8"|L"😊"|| |932|UCRT64|cout|""|"こんにちは世界！"|縺薙ｓ縺ｫ縺｡縺ｯ荳也阜・| |932|UCRT64|cout|"C"|"こんにちは世界！"|縺薙ｓ縺ｫ縺｡縺ｯ荳也阜・| |932|UCRT64|cout|".932"|"こんにちは世界！"|縺薙ｓ縺ｫ縺｡縺ｯ荳也阜・| |932|UCRT64|cout|".UTF-8"|"こんにちは世界！"|こんにちは世界！| |932|UCRT64|cout|""|"😊"|・| |932|UCRT64|cout|"C"|"😊"|・| |932|UCRT64|cout|".932"|"😊"|・| |932|UCRT64|cout|".UTF-8"|"😊"|??| |932|UCRT64|wcout|""|L"こんにちは世界！"|こんにちは世界！| |932|UCRT64|wcout|"C"|L"こんにちは世界！"|| |932|UCRT64|wcout|".932"|L"こんにちは世界！"|こんにちは世界！| |932|UCRT64|wcout|".UTF-8"|L"こんにちは世界！"|こんにちは世界！| |932|UCRT64|wcout|""|L"😊"|| |932|UCRT64|wcout|"C"|L"😊"|| |932|UCRT64|wcout|".932"|L"😊"|| |932|UCRT64|wcout|".UTF-8"|L"😊"|| |65001|UCRT64|cout|""|"こんにちは世界！"|縺薙ｓ縺ｫ縺｡縺ｯ荳也阜・| |65001|UCRT64|cout|"C"|"こんにちは世界！"|こんにちは世界！| |65001|UCRT64|cout|".932"|"こんにちは世界！"|縺薙ｓ縺ｫ縺｡縺ｯ荳也阜・| |65001|UCRT64|cout|".UTF-8"|"こんにちは世界！"|こんにちは世界！| |65001|UCRT64|cout|""|"😊"|・| |65001|UCRT64|cout|"C"|"😊"|😊| |65001|UCRT64|cout|".932"|"😊"|・| |65001|UCRT64|cout|".UTF-8"|"😊"|😊| |65001|UCRT64|wcout|""|L"こんにちは世界！"|こんにちは世界！| |65001|UCRT64|wcout|"C"|L"こんにちは世界！"|| |65001|UCRT64|wcout|".932"|L"こんにちは世界！"|こんにちは世界！| |65001|UCRT64|wcout|".UTF-8"|L"こんにちは世界！"|こんにちは世界！| |65001|UCRT64|wcout|""|L"😊"|| |65001|UCRT64|wcout|"C"|L"😊"|| |65001|UCRT64|wcout|".932"|L"😊"|| |65001|UCRT64|wcout|".UTF-8"|L"😊"|| ### 現時点での考察 mingw64/ucrt64環境では、設定ロケールを端末コードページに合わせて出力されるように見える。 mingw64では、ロケールがUTF-8("C"ロケール含む)のときだけ出力しようとするが、**実際の変換が行われない**。またwcoutの場合はロケールが何であっても出力できない。 ucrt64環境では、実際の変換も行われており"C"ロケールのときがやや特殊な変換なのと、**wcoutで絵文字が出ない**点を除き、想定どおりの動作をしている。なので、現時点でVC++で作成したアプリと近い動きを期待する(locale設定に""を使い、システムロケールに依存した動きにする)ためには、**UCRT64でワイド文字列リテラルとwcoutを使うことが望ましい**と予想する。ただし**絵文字(他にもあるかも)は諦める必要がある**。次はVC++でのUCRTの動きと、コマンドプロンプト上での動作確認でしょうか。。。 ## VC++でビルドしたものを動作確認絵文字表示が可能な端末が必要だったのでminttyでも確認。ビルドはVS2019を使用。 ### スクリプト ```CMake cmake_minimum_required (VERSION 3.8) project ("hello_locale_x") add_definitions(-DUNICODE -D_UNICODE) add_executable (hello_locale_x "hello_locale_x.cpp" ) ``` ``cmake -B build -S .``くらいしてから~~powershellを流す。~~以下のC++プログラムを流します。 ```C++ #include #include #include #include #include using namespace std; int main(int argc, char* argv[]) { setlocale(LC_CTYPE, "C"); bool build = (argc == 1); // 引数が1つでも指定されてたらビルドしない UINT cps[] = { 932, CP_UTF8 }; constexpr size_t CP_COUNT = sizeof(cps) / sizeof(cps[0]); wstring strs[] = { L"こんにちは世界！", L"😊" }; constexpr size_t TEST_COUNT = sizeof(strs) / sizeof(strs[0]); for (int cp = 0; cp < CP_COUNT; ++cp) { system((string("chcp ") + to_string(cps[cp])).c_str()); for (string out : {"cout", "wcout"}) { string prefix; if (out == string("wcout")) { prefix = "L"; } for (int i = 0; i < TEST_COUNT; ++i) { char bytes[100]; constexpr int BYTES_COUNT = sizeof(bytes) / sizeof(bytes[0]); auto l = WideCharToMultiByte(cps[cp], 0, strs[i].c_str(), static_cast(strs[i].size()), bytes, BYTES_COUNT, cps[cp] == CP_UTF8 ? NULL : "?", NULL); string cpstr(bytes, l); l = WideCharToMultiByte(CP_UTF8, 0, strs[i].c_str(), static_cast(strs[i].size()), bytes, BYTES_COUNT, NULL, NULL); string u8str(bytes, l); for (string loc : {"", "C", ".932", ".UTF-8"}) { string fname = string("hello_locale_") + to_string(cps[cp]) + "_" + out + "_" + loc + "_" + to_string(i); if (build) { ofstream f("hello_locale_x.cpp"); f << "\ \xEF\xBB\xBF\ #include \ int main() \ { \ std::setlocale(LC_CTYPE, "" << loc << ""); \ std::" << out << " << " << prefix << """ << u8str << ""; \ return 0; \ }"; f.close(); auto r = system("cmake --build build >NUL"); if (r != 0) return 1; system("copy .\build\Debug\hello_locale_x.exe . >nul"); system((string("copy hello_locale_x.exe ") + fname + ".exe >nul").c_str()); system((string("copy hello_locale_x.cpp ") + fname + ".cpp >nul").c_str()); } else { system((string("copy " + fname + ".exe hello_locale_x.exe >nul")).c_str()); } cout << "|" << cps[cp] << "| MSVC++ |" << out << "|"" << loc << ""|" << prefix << """ << cpstr << ""|"; cout.flush(); system(".\hello_locale_x"); cout << "|" << endl; } } } cerr << "press enter" << endl; string _; std::getline(cin, _); } system("chcp 932"); return 0; } ``` ### 結果(mintty) |端末コードページ|処理系|出力先|ロケール(C)|リテラル(ソースUTF8)|結果| |:--|:--:|:--:|:--|:--|:--| |932| MSVC++ |cout|""|"こんにちは世界！"|こんにちは世界！| |932| MSVC++ |cout|"C"|"こんにちは世界！"|こんにちは世界！| |932| MSVC++ |cout|".932"|"こんにちは世界！"|こんにちは世界！| |932| MSVC++ |cout|".UTF-8"|"こんにちは世界！"|| |932| MSVC++ |cout|""|"😊"|??| |932| MSVC++ |cout|"C"|"😊"|??| |932| MSVC++ |cout|".932"|"😊"|??| |932| MSVC++ |cout|".UTF-8"|"😊"|??| |932| MSVC++ |wcout|""|L"こんにちは世界！"|こんにちは世界！| |932| MSVC++ |wcout|"C"|L"こんにちは世界！"|| |932| MSVC++ |wcout|".932"|L"こんにちは世界！"|こんにちは世界！| |932| MSVC++ |wcout|".UTF-8"|L"こんにちは世界！"|こんにちは世界！| |932| MSVC++ |wcout|""|L"😊"|| |932| MSVC++ |wcout|"C"|L"😊"|| |932| MSVC++ |wcout|".932"|L"😊"|| |932| MSVC++ |wcout|".UTF-8"|L"😊"|| |65001| MSVC++ |cout|""|"こんにちは世界！"|こんにちは世界！| |65001| MSVC++ |cout|"C"|"こんにちは世界！"|ɂ͐EI| |65001| MSVC++ |cout|".932"|"こんにちは世界！"|こんにちは世界！| |65001| MSVC++ |cout|".UTF-8"|"こんにちは世界！"|| |65001| MSVC++ |cout|""|"😊"|??| |65001| MSVC++ |cout|"C"|"😊"|??| |65001| MSVC++ |cout|".932"|"😊"|??| |65001| MSVC++ |cout|".UTF-8"|"😊"|??| |65001| MSVC++ |wcout|""|L"こんにちは世界！"|こんにちは世界！| |65001| MSVC++ |wcout|"C"|L"こんにちは世界！"|| |65001| MSVC++ |wcout|".932"|L"こんにちは世界！"|こんにちは世界！| |65001| MSVC++ |wcout|".UTF-8"|L"こんにちは世界！"|こんにちは世界！| |65001| MSVC++ |wcout|""|L"😊"|| |65001| MSVC++ |wcout|"C"|L"😊"|| |65001| MSVC++ |wcout|".932"|L"😊"|| |65001| MSVC++ |wcout|".UTF-8"|L"😊"|| ### 結果(コマンドプロンプト) 😊が表示不可能だけで同じ ### 現時点での考察マルチバイト時文字列リテラルがバイナリ上シフトJISになっていることが発覚。後日考察。本当にシステムロケールUTF-8で動作するのか？

Answer

これは難しい問題です。 文字コードに関しては場当たり的な対処で運用されていて、こうすればすべて解決するというような決定的な方法がありません。

# なぜ化けるか

まず、 Windows のコンソールはコードページに従って解釈します。 つまりデフォルトではプログラムからの出力を CP932 のつもりで読み取ります。 CP932 のつもりで読み取るのでプログラムから出力しているのが UTF-8 だったら化けてしまいます。

状況を場合分けして考えます。

# GCC のオプション

CP932 に設定された状態で化けずにコンソールに出力されれば良いのであれば GCC のオプション `-fexec-charset` で CP932 を指定すれば良いです。 ソースコード中にある文字列リテラルを実行ファイルには CP932 で格納するという意味のオプションです。

GCC をビルドするときに iconv とリンクする設定になっていないとこのオプションは使えないのですが普通に MSYS2 経由で入れた GCC なら使えるはずです。

しかしこの方法では CP932 に無い文字は扱えません。 表す符号が存在しないからです。

# コンソール API

プログラムが CP932 で出力してもコンソールの側の設定が変わっていて他の文字コードのつもりで読み取ったらやっぱり破綻してしまいます。

ここで利用できるのは [`WriteConsoleOutput`](`https://learn.microsoft.com/en-us/windows/console/writeconsoleoutput`) API です。 パイプを通じてコンソールとやり取りするのではなくコンソールの描画を直接的につかさどる API です。 文字列を扱う Windows API の多くがそうであるようにこの API は ASCII の `WriteConsoleOutputA` と `WriteConsoleOutputW` があり、 `WriteConsoleOutputW` は常に Unicode を使います。 (Windows API について単に Unicode と書いてある場合には UTF-16 のことを意味します。)

しかし Windows コンソール上以外では使えません。 MSYS2 のターミナル (mintty) などでは使えません。

# 新しい API

近頃の Windows では擬似コンソール (ConPTY) と呼ばれる仕組みがあります。 要はターミナルソフトと一貫したインターフェイスでやり取りする方法を整備しようという話で、文字コードに関しての最終的な解決策と言えるでしょう。

ConPTY に対応したターミナルとしては Windows Terminal が代表的なものです。 VSCode も ConPTY に対応しているので知らずに使っているかもしれません……、が、結局のところは ConPTY に対応してないとどうにもならないので従来のコンソールでどうすべきかという解決策にはなりません。

# 落としどころ

プログラムの側は UTF-8 で出力するようにしてターミナルの設定も UTF-8 にしておくというのが全体としては楽な運用であろうかと思われます。

mintty も UTF-8 に変えられます。 mintty のウィンドウのタイトルバーの上で右クリックして option を選択してください。

その上で旧来の (UTF-8 を使っていない) Windows 用ソフトは winpty コマンド経由で呼び出すと文字化けせずに使えることが多いです。 winpty はそのためのコマンドです。

端末コードページ	処理系	出力先	ロケール(C)	リテラル(ソースUTF8)	ucrtbase入り口	Wide→MB	MB→Wide	Wide→MB	出力先	結果
932	UCRT64	cout	".UTF8"	"日本語"	ucrtbase!fwrite	✕	✕	→932	端末	"日本語"
932	UCRT64	wcout	".UTF8"	L"日本語"	ucrtbase!fputwc	✕	✕	→932	端末	"日本語"
932	UCRT64	cout	""	"日本語"	ucrtbase!fwrite	✕	932→	→932	端末	化けた
932	UCRT64	wcout	""	L"日本語"	ucrtbase!fputwc	→932	932→	→932	端末	"日本語"
932	UCRT64	cout	"C"	"日本語"	ucrtbase!fwrite	✕	✕	✕	端末	"譌･譛ｬ隱"
932	UCRT64	wcout	"C"	L"日本語"	ucrtbase!fputwc	✕	✕	✕	端末	""
65001	UCRT64	cout	".UTF8"	"日本語"	ucrtbase!fwrite	✕	✕	→65001	端末	"日本語"
65001	UCRT64	wcout	".UTF8"	L"日本語"	ucrtbase!fputwc	✕	✕	→65001	端末	"日本語"
65001	UCRT64	cout	""	"日本語"	ucrtbase!fwrite	✕	932→	→65001	端末	化けた
65001	UCRT64	wcout	""	L"日本語"	ucrtbase!fputwc	→932	932→	→65001	端末	"日本語"
65001	UCRT64	cout	"C"	"日本語"	ucrtbase!fwrite	✕	✕	✕	端末	"日本語"
65001	UCRT64	wcout	"C"	L"日本語"	ucrtbase!fputwc	✕	✕	✕	端末	""
932	UCRT64	cout	".UTF8"	"日本語"	ucrtbase!fwrite	✕	✕	✕	リダイレクト	"譌･譛ｬ隱"
932	UCRT64	wcout	".UTF8"	L"日本語"	ucrtbase!fputwc	✕	✕	✕	リダイレクト	"譌･譛ｬ隱"
932	UCRT64	cout	""	"日本語"	ucrtbase!fwrite	✕	✕	✕	リダイレクト	"譌･譛ｬ隱"
932	UCRT64	wcout	""	L"日本語"	ucrtbase!fputwc	→932	✕	✕	リダイレクト	"日本語"
932	UCRT64	cout	"C"	"日本語"	ucrtbase!fwrite	✕	✕	✕	リダイレクト	"譌･譛ｬ隱"
932	UCRT64	wcout	"C"	L"日本語"	ucrtbase!fputwc	✕	✕	✕	リダイレクト	""
65001	UCRT64	cout	".UTF8"	"日本語"	ucrtbase!fwrite	✕	✕	✕	リダイレクト	"日本語"
65001	UCRT64	wcout	".UTF8"	L"日本語"	ucrtbase!fputwc	✕	✕	✕	リダイレクト	"日本語"
65001	UCRT64	cout	""	"日本語"	ucrtbase!fwrite	✕	✕	✕	リダイレクト	"日本語"
65001	UCRT64	wcout	""	L"日本語"	ucrtbase!fputwc	→932	✕	✕	リダイレクト	"▒▒▒{▒▒"
65001	UCRT64	cout	"C"	"日本語"	ucrtbase!fwrite	✕	✕	✕	リダイレクト	"日本語"
65001	UCRT64	wcout	"C"	L"日本語"	ucrtbase!fputwc	✕	✕	✕	リダイレクト	""

環境/処理系	std::ios_base::sync_with_stdio	出力	CRT入り口
linux	true	cout	_IO_new_file_overflow(fputc)
linux	true	wcout	__GI_putwc(fputwc)
linux	false	cout	__GI___libc_write(write)
linux	false	wcout	止まらない
mingw64	true	cout	msvcrt!fwrite
mingw64	true	wcout	msvcrt!fputwc
mingw64	false	cout	msvcrt!_write
mingw64	false	wcout	msvcrt!_write

端末コードページ	処理系	出力先	ロケール(C)	リテラル(ソースUTF8)	結果
932	MINGW64	cout	""	"こんにちは世界！"
932	MINGW64	cout	"C"	"こんにちは世界！"	縺薙ｓ縺ｫ縺｡縺ｯ荳也阜・
932	MINGW64	cout	".932"	"こんにちは世界！"
932	MINGW64	cout	".UTF-8"	"こんにちは世界！"	縺薙ｓ縺ｫ縺｡縺ｯ荳也阜・
932	MINGW64	cout	""	"😊"
932	MINGW64	cout	"C"	"😊"	・
932	MINGW64	cout	".932"	"😊"
932	MINGW64	cout	".UTF-8"	"😊"	・
932	MINGW64	wcout	""	L"こんにちは世界！"
932	MINGW64	wcout	"C"	L"こんにちは世界！"
932	MINGW64	wcout	".932"	L"こんにちは世界！"
932	MINGW64	wcout	".UTF-8"	L"こんにちは世界！"
932	MINGW64	wcout	""	L"😊"
932	MINGW64	wcout	"C"	L"😊"
932	MINGW64	wcout	".932"	L"😊"
932	MINGW64	wcout	".UTF-8"	L"😊"
65001	MINGW64	cout	""	"こんにちは世界！"
65001	MINGW64	cout	"C"	"こんにちは世界！"	こんにちは世界！
65001	MINGW64	cout	".932"	"こんにちは世界！"
65001	MINGW64	cout	".UTF-8"	"こんにちは世界！"	こんにちは世界！
65001	MINGW64	cout	""	"😊"
65001	MINGW64	cout	"C"	"😊"	😊
65001	MINGW64	cout	".932"	"😊"
65001	MINGW64	cout	".UTF-8"	"😊"	😊
65001	MINGW64	wcout	""	L"こんにちは世界！"
65001	MINGW64	wcout	"C"	L"こんにちは世界！"
65001	MINGW64	wcout	".932"	L"こんにちは世界！"
65001	MINGW64	wcout	".UTF-8"	L"こんにちは世界！"
65001	MINGW64	wcout	""	L"😊"
65001	MINGW64	wcout	"C"	L"😊"
65001	MINGW64	wcout	".932"	L"😊"
65001	MINGW64	wcout	".UTF-8"	L"😊"
932	UCRT64	cout	""	"こんにちは世界！"	こんにちは世界！
932	UCRT64	cout	"C"	"こんにちは世界！"	縺薙ｓ縺ｫ縺｡縺ｯ荳也阜・
932	UCRT64	cout	".932"	"こんにちは世界！"	縺薙ｓ縺ｫ縺｡縺ｯ荳也阜・
932	UCRT64	cout	".UTF-8"	"こんにちは世界！"	こんにちは世界！
932	UCRT64	cout	""	"😊"	??
932	UCRT64	cout	"C"	"😊"	・
932	UCRT64	cout	".932"	"😊"	・
932	UCRT64	cout	".UTF-8"	"😊"	??
932	UCRT64	wcout	""	L"こんにちは世界！"	こんにちは世界！
932	UCRT64	wcout	"C"	L"こんにちは世界！"
932	UCRT64	wcout	".932"	L"こんにちは世界！"	こんにちは世界！
932	UCRT64	wcout	".UTF-8"	L"こんにちは世界！"	こんにちは世界！
932	UCRT64	wcout	""	L"😊"
932	UCRT64	wcout	"C"	L"😊"
932	UCRT64	wcout	".932"	L"😊"
932	UCRT64	wcout	".UTF-8"	L"😊"
65001	UCRT64	cout	""	"こんにちは世界！"	こんにちは世界！
65001	UCRT64	cout	"C"	"こんにちは世界！"	こんにちは世界！
65001	UCRT64	cout	".932"	"こんにちは世界！"	縺薙ｓ縺ｫ縺｡縺ｯ荳也阜・
65001	UCRT64	cout	".UTF-8"	"こんにちは世界！"	こんにちは世界！
65001	UCRT64	cout	""	"😊"	😊
65001	UCRT64	cout	"C"	"😊"	😊
65001	UCRT64	cout	".932"	"😊"	・
65001	UCRT64	cout	".UTF-8"	"😊"	😊
65001	UCRT64	wcout	""	L"こんにちは世界！"	こんにちは世界！
65001	UCRT64	wcout	"C"	L"こんにちは世界！"
65001	UCRT64	wcout	".932"	L"こんにちは世界！"	こんにちは世界！
65001	UCRT64	wcout	".UTF-8"	L"こんにちは世界！"	こんにちは世界！
65001	UCRT64	wcout	""	L"😊"
65001	UCRT64	wcout	"C"	L"😊"
65001	UCRT64	wcout	".932"	L"😊"
65001	UCRT64	wcout	".UTF-8"	L"😊"
932	MSVC++	cout	""	"こんにちは世界！"	こんにちは世界！
932	MSVC++	cout	"C"	"こんにちは世界！"	縺薙ｓ縺ｫ縺｡縺ｯ荳也阜・－
932	MSVC++	cout	".932"	"こんにちは世界！"	縺薙ｓ縺ｫ縺｡縺ｯ荳也阜・
932	MSVC++	cout	".UTF-8"	"こんにちは世界！"	こんにちは世界！
932	MSVC++	cout	""	"😊"	??
932	MSVC++	cout	"C"	"😊"	・
932	MSVC++	cout	".932"	"😊"	・
932	MSVC++	cout	".UTF-8"	"😊"	??
932	MSVC++	wcout	""	L"こんにちは世界！"	こんにちは世界！
932	MSVC++	wcout	"C"	L"こんにちは世界！"
932	MSVC++	wcout	".932"	L"こんにちは世界！"	こんにちは世界！
932	MSVC++	wcout	".UTF-8"	L"こんにちは世界！"	こんにちは世界！
932	MSVC++	wcout	""	L"😊"
932	MSVC++	wcout	"C"	L"😊"
932	MSVC++	wcout	".932"	L"😊"
932	MSVC++	wcout	".UTF-8"	L"😊"
65001	MSVC++	cout	""	"こんにちは世界！"	こんにちは世界！
65001	MSVC++	cout	"C"	"こんにちは世界！"	こんにちは世界！
65001	MSVC++	cout	".932"	"こんにちは世界！"	縺薙ｓ縺ｫ縺｡縺ｯ荳也阜・
65001	MSVC++	cout	".UTF-8"	"こんにちは世界！"	こんにちは世界！
65001	MSVC++	cout	""	"😊"	😊
65001	MSVC++	cout	"C"	"😊"	😊
65001	MSVC++	cout	".932"	"😊"	・
65001	MSVC++	cout	".UTF-8"	"😊"	😊
65001	MSVC++	wcout	""	L"こんにちは世界！"	こんにちは世界！
65001	MSVC++	wcout	"C"	L"こんにちは世界！"
65001	MSVC++	wcout	".932"	L"こんにちは世界！"	こんにちは世界！
65001	MSVC++	wcout	".UTF-8"	L"こんにちは世界！"	こんにちは世界！
65001	MSVC++	wcout	""	L"😊"
65001	MSVC++	wcout	"C"	L"😊"
65001	MSVC++	wcout	".932"	L"😊"
65001	MSVC++	wcout	".UTF-8"	L"😊"

実現したいこと

前提

質問

発生している問題・エラーメッセージ

(1) std::coutに出力するケース

(2) std::wcoutに出力するケース

該当のソースコード

試したこと

(1) hexdumpで調べる

(2) iconvで調べる

(3) catを噛ませてみる

(4) cmdから見てみる

(5) 絵文字を出力させてみる

(6) リテラルをシフトJISとしてコンパイルさせる

(7) 依存DLLを調べる

(8) wcoutの設定

(9) 調べたことまとめ

補足情報（FW/ツールのバージョンなど）

以上を踏まえた私見

(A)案

(B)案

(C)案

各サンプルコード

MINGW64での同期しないC言語ロケールによる日本語変換の挙動確認

std::wcinについて

MSVCRTのfputwcと_writeの問題について

UCRTを使用する場合の出力処理解析

結果

考察

MINGW64での日本語出力について

std::ios_base::sync_with_stdioについて

MINGW64で同じことをしてみる

LinuxでC/C++のロケール独立性調査

結果

考察

システムロケールUTF-8での結果

システムロケールCP932で作成したバイナリを、システムロケールUTF-8で実行した結果

システムロケールUTF-8で作成したバイナリを、システムロケールCP932で実行した結果

考察

前準備

対策コードと実行例

wcoutへの出力についての追加情報

UCRT64で確認した結果

発生している問題・エラーメッセージについて

試したこと

MSYS2-mintty上でのロケールと各種出力調査

調査用コード

調査結果

現時点での考察

VC++でビルドしたものを動作確認

スクリプト

結果(mintty)

結果(コマンドプロンプト)

現時点での考察

なぜ化けるか

GCC のオプション

コンソール API

新しい API

落としどころ

関連した質問