###前提・実現したいこと
今Javaで文字コードの扱いについて勉強しています。
###発生している問題・エラーメッセージ
一度UTF-8からShift_JISに変換したあともう一度UTF-8に戻す方法がわかりません
###ソースコード
Java
1String str = "あ"; 2// 文字化け 3str = new String(str.getBytes("UTF-8"), "Shift-JIS"); 4System.out.println(str); 5// ここで「あ」に戻したい
気になる質問をクリップする
クリップした質問は、後からいつでもMYページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
回答3件
0
ベストアンサー
javaのStringはUTF-16形式で保存されています。示していただいたコードのstr
はそもそもUTF-8でもShift_JISでもありません。ただの壊れたStringになるだけです。ソースコードがUTF-8であっても、"あ"
と言ったリテラル文字列はコンパイル時にUTF-16に変換されます。
UTF-8やShift_JISを正しく扱うにはbyte[]ではなければなりません。Stringを介することで変換が可能です。下記コードを参考に、動作を確認して下さい。コードの処理の順番を逆にすれば、逆の変換になります。
Java
1import java.nio.charset.StandardCharsets; 2import java.nio.charset.Charset; 3 4class U8SJ { 5 public static void main(String[] args) { 6 // String str = "aあ①????"; 7 // byte[] u8bytes = str.getBytes(StandardCharsets.UTF_8); 8 byte[] u8bytes = { 9 (byte)0x61, // a 10 (byte)0xE3, (byte)0x81, (byte)0x82, // あ 11 (byte)0xE2, (byte)0x91, (byte)0xA0, // ① 12 (byte)0xF0, (byte)0xA0, (byte)0xAE, (byte)0xB7 // ???? 13 }; 14 String str = new String(u8bytes, StandardCharsets.UTF_8); 15 byte[] sjbytes = str.getBytes(Charset.forName("Shift_JIS")); 16 byte[] wjbytes = str.getBytes(Charset.forName("Windows-31J")); 17 System.out.print("String: "); 18 System.out.println(str); 19 20 System.out.print("String 内部実装 char[]:"); 21 for (char c: str.toCharArray()) { 22 System.out.printf(" %04X", (int)c); 23 } 24 System.out.println(); 25 26 System.out.print("Unicode コードポイント:"); 27 for (int i = 0; i < str.length(); i++) { 28 int point = str.codePointAt(i); 29 System.out.printf(" U+%04X", point); 30 if (point > Character.MAX_VALUE) { 31 i++; // サロゲートペアの下位部分を飛ばす 32 } 33 } 34 System.out.println(); 35 36 System.out.print("UTF-8 byte[]:"); 37 for (byte b: u8bytes) { 38 System.out.printf(" %02X", b); 39 } 40 System.out.println(); 41 42 System.out.print("Shift_JIS byte[]:"); 43 for (byte b: sjbytes) { 44 System.out.printf(" %02X", b); 45 } 46 System.out.println(); 47 48 System.out.print("Windows-31J byte[]:"); 49 for (byte b: wjbytes) { 50 System.out.printf(" %02X", b); 51 } 52 System.out.println(); 53 } 54}
Shift_JISと日本語版Windowsのデフォルト文字コードであるWindows-31J(別名MS932、CP932等)は別のエンコードです。"①"などの一部の記号(いわゆる機種依存文字と言われていた文字)について異なる動作になりますので注意して下さい。また、"????"(U+20BB7。土に口の「よし」。吉とは異なる漢字です。対応フォントが無い環境では文字化けします)はShift_JISにもWindows-31Jにも含まれないため、正しく変換されません。
なお、UTF-8で書かれた大きなファイルをShift_JISに変換すると言ったことをしたい場合、一度Stringに変換するのは大きくメモリを消費するため、上の方法は使えません。CharBufferを経由して、Charset.decodeしたのを逐一Charset.encodeで変換すると言ったことが必要になります。
投稿2016/03/20 06:31
編集2016/03/20 06:35総合スコア21739
0
ちょっと混乱されているように見受けられます。
java.lang.Stringが保持している文字列に対して、文字コードを設定することはできません。
生成する際に指定されたバイト配列をどの文字コードで解釈するか?というのは可能ですが。
例:
UTF-8のバイト配列を取得したい場合。
java
1str.getBytes(StandardCharsets.UTF_8.toString())
Shift_JISのバイト配列を取得したい場合。
java
1str.getBytes("Shift_JIS")
投稿2016/03/20 04:07
総合スコア851
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2016/03/20 04:58
0
java
1String convert = new String(str.getBytes("Shift-JIS") , "UTF-8");
で戻ります。
投稿2016/03/20 04:01
総合スコア12011
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
退会済みユーザー
2016/03/20 04:03
2020/03/19 07:15
あなたの回答
tips
太字
斜体
打ち消し線
見出し
引用テキストの挿入
コードの挿入
リンクの挿入
リストの挿入
番号リストの挿入
表の挿入
水平線の挿入
プレビュー
質問の解決につながる回答をしましょう。 サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。 また、読む側のことを考えた、分かりやすい文章を心がけましょう。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
退会済みユーザー
2016/03/20 06:34