WideCharToMultiByteで「髙」から「0x7c62」を取得したい

Question

char taka[100];
WideCharToMultiByte(50221, 0, L"髙", -1, taka, 100, NULL, NULL);

Windowsで、上のルーチンで「髙」をJISコードに変換すると、
「1b 24 28 44 74 29 1b 28 42 00」というバイト列になりました。

「1b 24 28 44」はJIS X 0212、「1b 28 42」はアスキー文字のエスケープ文字で、
途中の「74 29」というバイト列が「髙」を表すものだと理解しました。
ところが、テキストエディタなどでこの文字のJISコードを表示させると、0x7c62となります。

「髙」が本来JISコードにないことは理解しているのですが、
この0x7429というバイト列はどういう意味で、なぜ0x7c62にならないのでしょうか？

Accepted Answer

Windows 11、Visual Studio 2022で確認しました。確かにWideCharToMultiByteでは、50220,50221,50222のいずれを指定しても、「髙」は0x7429を返しますね。これが何故なのか私も知りたいです(と言ったら私も怒られるのかな)。参考までに、サクラエディタ(GitHubでソース公開しています)では、以下のような処理により0x7C62を返しています。 (「髙」に関係する処理だけを抜き出して、単純化しています) ``` #include #include #include int main() { const char JISESCDATA_JISX0208_1983[] = {0x1B, 0x24, 0x42}; const char JISESCDATA_ASCII7[] = {0x1B, 0x28, 0x42}; char *pDst = new char[8]; char taka[100]; // UTF-16(0x9AD9)からShift_JIS(IBM拡張文字、0xFBFC) WideCharToMultiByte(932, 0, L"髙", -1, taka, 100, nullptr, nullptr); // 2区と13区の調整(「髙」は対象外) // IBM拡張文字からNEC選定IBM拡張文字(0xEEE0) unsigned int c = ((taka[0] << 8) & 0x0000FF00) + (taka[1] & 0x000000FF); // 「髙」が含まれるFB9C～FBFC→EE80～EEE0の場合 c -= 0x0D1C; // NEC選定IBM拡張文字からJIS(0x7C62) c = _mbcjmstojis_l(c, _create_locale(LC_ALL, "Japanese_Japan.932")); // エスケープシーケンスと連結 memcpy(pDst, JISESCDATA_JISX0208_1983, 3); pDst[3] = static_cast((c & 0x0000FF00) >> 8); pDst[4] = static_cast(c & 0x000000FF); memcpy(&pDst[5], JISESCDATA_ASCII7, 3); // pDstに変換結果が入っている(0x1B 24 42 7C 62 1B 28 42) delete[] pDst; } ``` (追記) dameoさんの指摘により、上記ソースの参照元を追記します。 [https://github.com/sakura-editor/sakura](https://github.com/sakura-editor/sakura) |処理内容|ソース|関数| |-|-|-| |UTF-16からIBM拡張文字|sakura_core\charset\codeutil.h|MyWideCharToMultiByte_JP| |2区と13区の調整|sakura_core\charset\codeutil.cpp|SjisFilter_basis| |IBM拡張文字からNEC選定IBM拡張文字|sakura_core\charset\codeutil.cpp|SjisFilter_ibm2nec| |NEC選定IBM拡張文字からJIS|sakura_core\charset\codeutil.cpp|_mbcjmstojis_j| |エスケープシーケンスと連結|sakura_core\charset\CJis.cpp|CJis::UniToJis| (追記・その2) JISCに登録して「JIS X 0212-1990」規格書を見ましたが、「髙」に関する記載はありませんでした。あとは、WideCharToMultiByte APIのソースを見るしかないですね。 (追記・その3) FreeBSD 13.2、iconvコマンド |パラメーター|髙| |-|-| |CP50220|0x1B 24 42 7C 62 1B 28 42| |CP50221|0x1B 24 42 7C 62 1B 28 42| |CP50222|0x1B 24 42 7C 62 1B 28 42| |ISO-2022-JP-1|warning: invalid characters: 1| |ISO-2022-JP-2|warning: invalid characters: 1| |ISO-2022-JP|warning: invalid characters: 1| |JISX0208:1990|不正なバイト列です| Ubuntu 22.04.3、iconvコマンド |パラメーター|髙| |-|-| |CSISO2022JP|illegal input sequence at position 0| |CSISO2022JP2|illegal input sequence at position 0| |ISO-2022-JP-2|illegal input sequence at position 0| |ISO-2022-JP-3|illegal input sequence at position 0| |ISO-2022-JP|illegal input sequence at position 0| |ISO2022JP|illegal input sequence at position 0| |ISO2022JP2|illegal input sequence at position 0| FreeBSD 13.2、PHP 8.1.27 Ubuntu 22.04.3、PHP 8.1.2 mb_convert_encoding関数(2環境とも結果は同じ) |パラメーター|髙| |-|-| |CP50220|0x1B 24 42 7C 62 1B 28 42| |CP50220raw|0x1B 24 42 7C 62 1B 28 42| |CP50221|0x1B 24 42 7C 62 1B 28 42| |CP50222|0x1B 24 42 7C 62 1B 28 42| |ISO-2022-JP|0x3F| |ISO-2022-JP-MS|0x1B 24 42 7C 62 1B 28 42| |JIS|0x3F| |JIS-ms|0x1B 24 42 7C 62 1B 28 42| ※0x3FはUS-ASCIIで「?」私の結論としては、WideCharToMultiByteに50220,50221,50222を指定して0x7429を返す動作は変だと思います。0x7C62が正しい。

Answer

# 回答ではありません。なんか質問者から中途半端な返事と結果だけ聞く質問が多く、これを見たらと言っても調べてる気配すらなく、話が進みそうにないので、とりあえず調査用のコードを貼っておきます。 ```cpp #include #include #include #include #include #include auto create_sjis2ws() { std::map sjis2ws; char ch[3]; ch[1] = 0; ch[2] = 0; for (ch[0] = 0x20; ch[0] != 0; ++ch[0]) { wchar_t wch[3]; int len = MultiByteToWideChar(932, MB_ERR_INVALID_CHARS, ch, 1, wch, sizeof(wch) / sizeof(wch[0])); if (len == 1) { sjis2ws[std::string(ch)] = std::wstring(1, wch[0]); } else { for (ch[1] = 0x20; ch[1] != 0; ++ch[1]) { int len = MultiByteToWideChar(932, MB_ERR_INVALID_CHARS, ch, 2, wch, sizeof(wch) / sizeof(wch[0])); if (len == 1) { sjis2ws[std::string(ch)] = std::wstring(1, wch[0]); } } } } return sjis2ws; } template auto create_ws2sjis(const std::map& sjis2ws) { std::map> ws2sjis; for (const auto& sjis2ws_pair : sjis2ws) { const auto& sjis = sjis2ws_pair.first; const auto& ws = sjis2ws_pair.second; auto it = ws2sjis.find(ws); if (it == ws2sjis.end()) { it = ws2sjis.insert(std::make_pair(ws, std::vector())).first; } it->second.push_back(sjis); } return ws2sjis; } const struct sequence_type { std::string escapes; std::string name; int char_length; } seq_type[] = { {"\x1b(B", "ASCII", 1}, {"\x1b(J", "JIS X 0201-1976", 1}, {"\x1b$@", "JIS X 0208-1978", 2}, {"\x1b$B", "JIS X 0208-1990", 2}, {"\x1b$(D", "JIS X 0212-1990", 2}, {"\x1b$A", "GB 2312-80", 2}, {"\x1b$(C", "KS X 1001-1992", 2}, {"\x1b.A", "ISO/IEC 8859-1(high)", 1}, {"\x1b.F", "ISO/IEC 8859-7(high)", 1}, {"\x1b$(O", "JIS X 0213:2000(1)", 2}, {"\x1b$(P", "JIS X 0213:2000(2)", 2}, {"\x1b$(Q", "JIS X 0213:2004(1)", 2}, {"\x1b(I", "JIS X 0201(kana)", 1}, //{"\x1b$(?", "JIS X 0208-1990(gaiji)", 2}, }; template auto create_jis2ws(const T& ws2sjis) { std::map, std::wstring> jis2ws; for (const auto& ws2sjis_pair : ws2sjis) { const auto& ws = ws2sjis_pair.first; char jis[100]; auto len = WideCharToMultiByte(50221, 0, ws.c_str(), static_cast(ws.length()), jis, sizeof(jis) / sizeof(jis[0]), NULL, NULL); if (len <= 0 || (jis[0] == '?' && ws[0] != L'?')) continue; std::string jisstr(jis, len); const sequence_type* pst = &seq_type[0]; for (const auto& st : seq_type) { const auto& esc = st.escapes; if (jisstr.substr(0, esc.length()) == esc) { pst = &st; jisstr = jisstr.substr(esc.length(), st.char_length); break; } } jis2ws[std::make_pair(pst->name, jisstr)] = ws; } return jis2ws; } template void print_JISX0212_1990(const std::map& jis2ws, const std::map& ws2sjis) { std::cout << "

" << std::endl;
    for (const auto& jis2ws_pair : jis2ws) {
        const auto& jis = jis2ws_pair.first;
        const auto& ws = jis2ws_pair.second;
        if (jis.first == "JIS X 0212-1990") {
            std::wcout << jis2ws_pair.second;
            std::cout << ":Unicode(BMP)("
                << std::hex
                << std::setw(4) << std::setfill('0') << static_cast(ws[0])
                << std::dec
                << ")";
            std::cout
                << ": ISO-2022-JP-2(" << jis.first << ")"
                << "(";
            for (auto ch : jis.second) {
                std::cout
                    << std::hex
                    << std::setw(2) << std::setfill('0')
                    << static_cast(ch)
                    << std::dec;
            }
            std::cout
                << "): Windows_31J";
            std::cout
                << std::hex;
            for (const auto& s : ws2sjis.at(ws)) {
                std::cout << "(" << std::hex;
                for (auto ch : s) {
                    std::cout << std::setw(2) << std::setfill('0') << static_cast(static_cast(ch));
                }
                std::cout << std::dec << ")";
            }
            std::cout
                << std::endl;
        }
    }
}
int main(int argc, char* argv[])
{
    auto r = setlocale(LC_CTYPE, argc > 1 ? argv[1] : "");
    if (r == nullptr) {
        std::cerr << "invalid locale!" << std::endl;
        return 1;
    }
    auto sjis2ws = create_sjis2ws();
    auto ws2sjis = create_ws2sjis(sjis2ws);
    auto jis2ws = create_jis2ws(ws2sjis);
    print_JISX0212_1990(jis2ws, ws2sjis);
    return 0;
}
```

```cmd
C:\>hoge.exe .UTF-8 >hoge.html
C:\>hoge.html
```

処理内容	ソース	関数
UTF-16からIBM拡張文字	sakura_core\charset\codeutil.h	MyWideCharToMultiByte_JP
2区と13区の調整	sakura_core\charset\codeutil.cpp	SjisFilter_basis
IBM拡張文字からNEC選定IBM拡張文字	sakura_core\charset\codeutil.cpp	SjisFilter_ibm2nec
NEC選定IBM拡張文字からJIS	sakura_core\charset\codeutil.cpp	_mbcjmstojis_j
エスケープシーケンスと連結	sakura_core\charset\CJis.cpp	CJis::UniToJis

パラメーター	髙
CP50220	0x1B 24 42 7C 62 1B 28 42
CP50221	0x1B 24 42 7C 62 1B 28 42
CP50222	0x1B 24 42 7C 62 1B 28 42
ISO-2022-JP-1	warning: invalid characters: 1
ISO-2022-JP-2	warning: invalid characters: 1
ISO-2022-JP	warning: invalid characters: 1
JISX0208:1990	不正なバイト列です

パラメーター	髙
CSISO2022JP	illegal input sequence at position 0
CSISO2022JP2	illegal input sequence at position 0
ISO-2022-JP-2	illegal input sequence at position 0
ISO-2022-JP-3	illegal input sequence at position 0
ISO-2022-JP	illegal input sequence at position 0
ISO2022JP	illegal input sequence at position 0
ISO2022JP2	illegal input sequence at position 0

パラメーター	髙
CP50220	0x1B 24 42 7C 62 1B 28 42
CP50220raw	0x1B 24 42 7C 62 1B 28 42
CP50221	0x1B 24 42 7C 62 1B 28 42
CP50222	0x1B 24 42 7C 62 1B 28 42
ISO-2022-JP	0x3F
ISO-2022-JP-MS	0x1B 24 42 7C 62 1B 28 42
JIS	0x3F
JIS-ms	0x1B 24 42 7C 62 1B 28 42