Android 文字列UTF変換について

サーバーからJSONで送られてきた文字列をAndroidで表示する処理を作っているのですが、正しく表示できません。

Java
1String _tmp_string = data.getString("name");
2String _tmp_string_2 = "";
3
4for (int j = 0; j <= _tmp_string.length() - 5; j=j+5) {
5    _tmp_string_2 += "\" + _tmp_string.substring(j, j+5);
6}
7
8Log.d("MyProj", "_tmp_string_2 = " + _tmp_string_2);
9byte[] _byte_name = _tmp_string_2.getBytes("UTF-8");
10Log.d("MyProj", "_byte_name = " + _byte_name);
11
12// byte[] _byte_name = "\u4ec1\u53cb\u4f1a".getBytes("UTF-8");
13
14// Log.d("MyProj", "_byte_name = " + _byte_name);
15
16String _tmp_name = new String(_byte_name, "UTF-8");
17Log.d("MyProj", "_tmp_name = " + _tmp_name);
18
19PaymentList item = new PaymentList(bmp, _tmp_date, _tmp_name, data.getString("price") + "円");
20listItems.add(item);
21

表示結果は、\u4ec1\u53cb\u4f1aとなってしまいます。

今コメントにしている、

Java
1byte[] _byte_name = "\u4ec1\u53cb\u4f1a".getBytes("UTF-8");

に置き換えると正しく日本語が表示できている状態です。

Logcat
1_tmp_string_2 = \u4ec1\u53cb\u4f1a

と変換できているので何が原因なのかわかりません。

どこが間違っているのかご指摘いただけると幸いです。
よろしくお願いします。

退会済みユーザー

2018/05/26 05:03

「表示結果は、\u4ec1\u53cb\u4f1aとなってしまいます。」というのはどの変数を表示した結果なのでしょうか？

kazzzstudio

2018/05/26 05:18

説明が不足していてすみませんでした。_tmp_nameになります。この変数をListView上のTextViewに表示したときに崩れます。

退会済みユーザー

2018/05/26 05:28

_tmp_string を表示するとどうなるのでしょうか？

kazzzstudio

2018/05/26 05:45

_tmp_stringを表示すると、u4ec1u53cbu4f1aとなります。

退会済みユーザー

2018/05/26 11:13

2文字目の1バイト目からしてSJISかしら?

kazzzstudio

2018/05/26 11:21

UTF-16で"4ec1"は仁、"53cb"は友、"4f1a"は会なので、UTF-16になっていると思います。同じjsonをiOS（Swift）ではなんの加工も必要なく正しく表示できています。

行動規範の内容に同意します

回答2件

ベストアンサー

以下のメソッドでデコードできます。

java
1static final Pattern UNICODE_ESCAPE = Pattern.compile("u([\dA-Z]{4})", Pattern.CASE_INSENSITIVE);
2
3static String decode(String s) {
4    Matcher m = UNICODE_ESCAPE.matcher(s);
5    StringBuffer sb = new StringBuffer();
6    while (m.find())
7        m.appendReplacement(sb, Character.toString((char)Integer.parseInt(m.group(1), 16)));
8    m.appendTail(sb);
9    return sb.toString();
10}

使い方は以下のとおりです。

java
1String _tmp_string = "u4ec1u53cbu4f1a";
2System.out.println(decode(_tmp_string));
3// -> 仁友会

投稿2018/05/26 21:00

編集2018/05/26 21:01

退会済みユーザー

総合スコア0

kazzzstudio

2018/05/27 00:04

ありがとうございます！できました！ただ、\をつけるのではダメなのですね。

行動規範の内容に同意します

_tmp_string_2 += "" + _tmp_string.substring(j, j+5);

ここで既に違っていると思われます。
_tmp_string_2 に格納(+=)されている文字列が、(最初の場合)「\u4ec1」(6文字)です。javaで言うところの、"\u4ec1"(こちらは、UTF-16? で一文字)ではありません。
Jsonが送ってくる文字列が、"u4ec1"と言う文字列なので、それをUTF-16(で良かった?)の文字コードとして認識、一文字の変換する処理が必要です。変換方法は、、、~~即答できるほど、覚えていないので、後で調べてみたいと思います。~~
(どなたか、知っている方、よろしく。泥臭い方法は分かるのですが)

[追記]
デコード方法の提示がありました。ありがとうございます。
なお、"" の追加のみで NGの意味ですが、

"" + _tmp_string.substring(j, j+5);

は、ソース上で、"\u4ec1" に相当します。上記に記載が漏れたので、追記します。
それに対し、ソースで、"\u4ec1" は、コンパイラが、一文字とみなし、変換します。(従って別物)

投稿2018/05/26 12:01

編集2018/05/27 00:20

pepperleaf

総合スコア6383

kazzzstudio

2018/05/26 12:05

ご回答、ありがとうございます。 byte[] _byte_name = "\u4ec1\u53cb\u4f1a".getBytes("UTF-8"); こちらのコードだとうまくいくので、同じ文字列を作ることができればうまくいくのではないかと思いました。そもそものアプローチが間違っているのでしょうか？

kazzzstudio

2018/05/27 00:28

追記、ありがとうございます。わかりやすくまとめていただき、なにが良くなかったのか理解を深めることができました。

行動規範の内容に同意します

あなたの回答