質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
Java

Javaは、1995年にサン・マイクロシステムズが開発したプログラミング言語です。表記法はC言語に似ていますが、既存のプログラミング言語の短所を踏まえていちから設計されており、最初からオブジェクト指向性を備えてデザインされています。セキュリティ面が強力であることや、ネットワーク環境での利用に向いていることが特徴です。Javaで作られたソフトウェアは基本的にいかなるプラットフォームでも作動します。

Q&A

解決済

3回答

109680閲覧

Javaで文字コードの変換をしたい

退会済みユーザー

退会済みユーザー

総合スコア0

Java

Javaは、1995年にサン・マイクロシステムズが開発したプログラミング言語です。表記法はC言語に似ていますが、既存のプログラミング言語の短所を踏まえていちから設計されており、最初からオブジェクト指向性を備えてデザインされています。セキュリティ面が強力であることや、ネットワーク環境での利用に向いていることが特徴です。Javaで作られたソフトウェアは基本的にいかなるプラットフォームでも作動します。

0グッド

3クリップ

投稿2016/03/20 03:13

###前提・実現したいこと
今Javaで文字コードの扱いについて勉強しています。

###発生している問題・エラーメッセージ
一度UTF-8からShift_JISに変換したあともう一度UTF-8に戻す方法がわかりません
###ソースコード

Java

1String str = "あ"; 2// 文字化け 3str = new String(str.getBytes("UTF-8"), "Shift-JIS"); 4System.out.println(str); 5// ここで「あ」に戻したい

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答3

0

ベストアンサー

javaのStringはUTF-16形式で保存されています。示していただいたコードのstrはそもそもUTF-8でもShift_JISでもありません。ただの壊れたStringになるだけです。ソースコードがUTF-8であっても、"あ"と言ったリテラル文字列はコンパイル時にUTF-16に変換されます。

UTF-8やShift_JISを正しく扱うにはbyte[]ではなければなりません。Stringを介することで変換が可能です。下記コードを参考に、動作を確認して下さい。コードの処理の順番を逆にすれば、逆の変換になります。

Java

1import java.nio.charset.StandardCharsets; 2import java.nio.charset.Charset; 3 4class U8SJ { 5 public static void main(String[] args) { 6 // String str = "aあ①????"; 7 // byte[] u8bytes = str.getBytes(StandardCharsets.UTF_8); 8 byte[] u8bytes = { 9 (byte)0x61, // a 10 (byte)0xE3, (byte)0x81, (byte)0x82, // あ 11 (byte)0xE2, (byte)0x91, (byte)0xA0, // ① 12 (byte)0xF0, (byte)0xA0, (byte)0xAE, (byte)0xB7 // ???? 13 }; 14 String str = new String(u8bytes, StandardCharsets.UTF_8); 15 byte[] sjbytes = str.getBytes(Charset.forName("Shift_JIS")); 16 byte[] wjbytes = str.getBytes(Charset.forName("Windows-31J")); 17 System.out.print("String: "); 18 System.out.println(str); 19 20 System.out.print("String 内部実装 char[]:"); 21 for (char c: str.toCharArray()) { 22 System.out.printf(" %04X", (int)c); 23 } 24 System.out.println(); 25 26 System.out.print("Unicode コードポイント:"); 27 for (int i = 0; i < str.length(); i++) { 28 int point = str.codePointAt(i); 29 System.out.printf(" U+%04X", point); 30 if (point > Character.MAX_VALUE) { 31 i++; // サロゲートペアの下位部分を飛ばす 32 } 33 } 34 System.out.println(); 35 36 System.out.print("UTF-8 byte[]:"); 37 for (byte b: u8bytes) { 38 System.out.printf(" %02X", b); 39 } 40 System.out.println(); 41 42 System.out.print("Shift_JIS byte[]:"); 43 for (byte b: sjbytes) { 44 System.out.printf(" %02X", b); 45 } 46 System.out.println(); 47 48 System.out.print("Windows-31J byte[]:"); 49 for (byte b: wjbytes) { 50 System.out.printf(" %02X", b); 51 } 52 System.out.println(); 53 } 54}

Shift_JISと日本語版Windowsのデフォルト文字コードであるWindows-31J(別名MS932、CP932等)は別のエンコードです。"①"などの一部の記号(いわゆる機種依存文字と言われていた文字)について異なる動作になりますので注意して下さい。また、"????"(U+20BB7。土に口の「よし」。吉とは異なる漢字です。対応フォントが無い環境では文字化けします)はShift_JISにもWindows-31Jにも含まれないため、正しく変換されません。

なお、UTF-8で書かれた大きなファイルをShift_JISに変換すると言ったことをしたい場合、一度Stringに変換するのは大きくメモリを消費するため、上の方法は使えません。CharBufferを経由して、Charset.decodeしたのを逐一Charset.encodeで変換すると言ったことが必要になります。

投稿2016/03/20 06:31

編集2016/03/20 06:35
raccy

総合スコア21739

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2016/03/20 06:34

stringはutf-16なのですね。 回答ありがとうございます。
guest

0

ちょっと混乱されているように見受けられます。
java.lang.Stringが保持している文字列に対して、文字コードを設定することはできません。
生成する際に指定されたバイト配列をどの文字コードで解釈するか?というのは可能ですが。

例:
UTF-8のバイト配列を取得したい場合。

java

1str.getBytes(StandardCharsets.UTF_8.toString())

Shift_JISのバイト配列を取得したい場合。

java

1str.getBytes("Shift_JIS")

投稿2016/03/20 04:07

umed0025

総合スコア851

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2016/03/20 04:12

ええと、よくわからなくなってしまっているんですが、 例示したソースでは”あ”を意図的にUTF-8であるバイト列をShift-JISとして解釈するってことでいいんですよね。 その後、間違ってShift_JISとして解釈したバイト列をUTF-8に戻すにはどうしたらいいんでしょう?
umed0025

2016/03/20 04:58

>例示したソースでは”あ”を意図的にUTF-8であるバイト列をShift-JISとして解釈するってことでいいんですよね。 はいその認識であってます。 "ISO8859-1"で解釈されたものであれば.getByets("ISO8859-1")で可能ですが、Shift_JISで解釈してしまった場合は無理だったような気がします。元のstrを取得したほうが早いかなぁ。
guest

0

java

1String convert = new String(str.getBytes("Shift-JIS") , "UTF-8");

で戻ります。

投稿2016/03/20 04:01

A-pZ

総合スコア12011

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2016/03/20 04:03

それはやってみたんですが、「�?」になってしまいます
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問