Stringクラスの文字コード指定について

Stringのインスタンスを生成する際に、文字コードを指定して生成された文字列が
指定した文字コードのバイトデータと異なる原因がわからないので教えてください

試したこと
・EUC-JPのバイト配列から文字コードがEUC-JPのStringインスタンを生成

サンプルコード
byte[] beforeByte = "あ".getBytes("EUC-JP");
String afterString = new String(beforeByte, "EUC-JP");

System.out.println("--------String生成前バイトデータ --------");
for(byte b: beforeByte){
System.out.println("コード " + String.format("%02X", b));
}

System.out.println("-------- String生成後バイトデータ--------");
for(byte b: afterString.getBytes()){
System.out.println("コード " + String.format("%02X", b));
}

結果
--------String生成前バイトデータ --------
コード A4
コード A2
-------- String生成後バイトデータ--------
コード E3
コード 81
コード 82

日本語「あ」のEUC-JPの文字コードが「A4A2」でUTF-8の文字コードが「E38182」
普通に考えるとバイトデータがEUC-JPの文字コードの値でStringが生成されると思うのですが
なぜかUTF-8の文字コードで生成されます。Stringはシステムライブラリーのためデバッガで値の確認もできないので
原因がわかりません。推測ではJava内部の文字コードがunicodeなので結局は全部それベースのStringしか
生成されないのではと思ったのですが、それだと文字コードを指定する意味もわかりません。
「/www.ideone.com」の実行環境でも同じ結果になることは確認してます。

行動規範の内容に同意します

回答1件

ベストアンサー

https://docs.oracle.com/javase/jp/8/docs/api/java/lang/String.html#getBytes--

プラットフォームのデフォルトの文字セットを使用してこのStringをバイト・シーケンスにエンコード化し、結果を新規バイト配列に格納します。

パラメータなしのgetBytesは内部状態をそのままバイト配列にするわけではなく、デフォルトの文字セット（エンコーディング）でエンコードしたバイト配列を出力します。
デフォルトがUTF-8環境なのではないでしょうか？

投稿2018/10/06 09:56

daisuke7

総合スコア1563

4qh9gwgrfr

2018/10/06 10:01

>パラメータなしのgetBytesは getBytesの引数に文字コードを指定しています。知りたいのはStringインスタンスの生成時になぜ指定した文字コードではなくUTF-8の文字コードになるかということです。

daisuke7

2018/10/06 10:11

String afterString = new String(beforeByte, "EUC-JP"); beforeByteバイト配列をEUC-JPエンコーディングと見なしてStringにしていますが、 for(byte b: afterString.getBytes() ここでデフォルト文字セットのバイト配列にしています。 Stringになった時は、元の文字エンコーディングは関係ありません。

4qh9gwgrfr

2018/10/06 10:18

盲点でした。ありがとうございます。

行動規範の内容に同意します