JISの文字コード変換

Question

JISの文字コードで格納されたデータをQtで表示できるように文字コードの変換を試しているのですが、上手くいきません。

試したコードは以下の通りです。

wchar_t JIS_DATA[100];
上記の領域にJISコードの2バイト文字列(ＡＢＣＤＥＦＧＨ)が格納されています。

wchar_t *pData = &JIS_DATA[0];
QTextCodec *pCodec = QTextCodec::codecForName("ISO-2022-JP");
QByteArray aJisStr = QByteArray((const char *)pData);
QString strWork = pCodec->toUnicode(aJisStr);

strWorkの内容は「A#B#C#D#E#F#G#H#」となってしまいます。
strWorkに「ＡＢＣＤＥＦＧＨ」と変換したいですが...

御教授の程、宜しくお願い致します。

Accepted Answer

> wchar_t JIS_DATA[100];
> 上記の領域にJISコードの2バイト文字列(ＡＢＣＤＥＦＧＨ)が格納されています。

JIS X 0208 文字セットの2バイト文字が`wchar_t`配列に格納されているものと解釈して話を進めます。
その配列は「ISO-2022-JP で符号化されたデータ」ではないので、

> QTextCodec::codecForName("ISO-2022-JP");

でデコードするのは無理です。

そこで、チカラワザになりますが、`JIS_DATA`の各「バイト」の最上位ビットを'1'にしてしまいましょう。
そうすれば`JIS_DATA`を「EUC-JP でエンコードされたデータ」とみなすことが可能になるかな？と思います。
```
for (int i = 0; i < sizeof JIS_DATA / sizeof(wchar_t); i++) {
    if (0 == JIS_DATA[i]) {
        break;
    }
    JIS_DATA[i] |= 0x8080;
}
QTextCodec::codecForName("EUC-JP");
QByteArray aJisStr = QByteArray((const char *)JIS_DATA);
QString strWork = pCodec->toUnicode(aJisStr);
```
ですかね。

全然テストしていないのでミスがあったらごめんなさい。

Answer

以下のコードで実現することが出来ました。
アドバイスをいただいた皆様、ありがとうございました。

```C++
wchar_t wcData[100];
memset(&wcData, 0x00, sizeof(wcData));
for(i=0; i<100; i++) {
	if(0 == JIS_DATA[i]) {
		break;
	}
	wcData[i] = flip16(JIS_DATA[i]);
}
QTextCodec *pCodec = QTextCodec::codecForName("ISO-2022-JP");
QByteArray aJisStr = QByteArray((const char *)&wcData[0]);
aJisStr.insert(0, 0x1B);
aJisStr.insert(1, 0x24);
aJisStr.insert(2, 0x42);
QString strWork = pCodec->toUnicode(aJisStr);
```

Answer

文字コードが ISO-2022-JP の data.txt を Qt で扱おうとすると大体このようになります。

c++
1#include <QtCore>
2
3int main(int argc, char **argv)
4{
5    QCoreApplication app(argc, argv);
6
7    const auto codec = QTextCodec::codecForName("ISO-2022-JP");
8
9    QFile file("data.txt");
10    file.open(QFile::ReadOnly);
11    const auto data = file.readAll();
12    file.close();
13    qDebug() << data << codec->toUnicode(data);
14
15    return 0;
16}

実行結果

shell
1"\x1B$B#A#B#C#D#E#F#G#H\x1B(B\n" "ＡＢＣＤＥＦＧＨ\n"

試されたコードは、ほぼ合ってそうなので、具体的になにがおかしいかの特定には
現象が再現できるような最小限のプログラム一式が必要かなと思います。