質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Java

Javaは、1995年にサン・マイクロシステムズが開発したプログラミング言語です。表記法はC言語に似ていますが、既存のプログラミング言語の短所を踏まえていちから設計されており、最初からオブジェクト指向性を備えてデザインされています。セキュリティ面が強力であることや、ネットワーク環境での利用に向いていることが特徴です。Javaで作られたソフトウェアは基本的にいかなるプラットフォームでも作動します。

Q&A

解決済

1回答

5945閲覧

Stringクラスの文字コード指定について

4qh9gwgrfr

総合スコア15

Java

Javaは、1995年にサン・マイクロシステムズが開発したプログラミング言語です。表記法はC言語に似ていますが、既存のプログラミング言語の短所を踏まえていちから設計されており、最初からオブジェクト指向性を備えてデザインされています。セキュリティ面が強力であることや、ネットワーク環境での利用に向いていることが特徴です。Javaで作られたソフトウェアは基本的にいかなるプラットフォームでも作動します。

0グッド

0クリップ

投稿2018/10/06 09:34

編集2018/10/06 09:38

Stringのインスタンスを生成する際に、文字コードを指定して生成された文字列が
指定した文字コードのバイトデータと異なる原因がわからないので教えてください

試したこと
・EUC-JPのバイト配列から文字コードがEUC-JPのStringインスタンを生成

サンプルコード
byte[] beforeByte = "あ".getBytes("EUC-JP");
String afterString = new String(beforeByte, "EUC-JP");

System.out.println("--------String生成前バイトデータ --------");
for(byte b: beforeByte){
System.out.println("コード " + String.format("%02X", b));
}

System.out.println("-------- String生成後バイトデータ--------");
for(byte b: afterString.getBytes()){
System.out.println("コード " + String.format("%02X", b));
}

結果
--------String生成前バイトデータ --------
コード A4
コード A2
-------- String生成後バイトデータ--------
コード E3
コード 81
コード 82

日本語「あ」のEUC-JPの文字コードが「A4A2」でUTF-8の文字コードが「E38182」
普通に考えるとバイトデータがEUC-JPの文字コードの値でStringが生成されると思うのですが
なぜかUTF-8の文字コードで生成されます。Stringはシステムライブラリーのためデバッガで値の確認もできないので
原因がわかりません。推測ではJava内部の文字コードがunicodeなので結局は全部それベースのStringしか
生成されないのではと思ったのですが、それだと文字コードを指定する意味もわかりません。
「/www.ideone.com」の実行環境でも同じ結果になることは確認してます。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

https://docs.oracle.com/javase/jp/8/docs/api/java/lang/String.html#getBytes--

プラットフォームのデフォルトの文字セットを使用してこのStringをバイト・シーケンスにエンコード化し、結果を新規バイト配列に格納します。

パラメータなしのgetBytesは内部状態をそのままバイト配列にするわけではなく、デフォルトの文字セット(エンコーディング)でエンコードしたバイト配列を出力します。
デフォルトがUTF-8環境なのではないでしょうか?

投稿2018/10/06 09:56

daisuke7

総合スコア1563

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

4qh9gwgrfr

2018/10/06 10:01

>パラメータなしのgetBytesは getBytesの引数に文字コードを指定しています。 知りたいのはStringインスタンスの生成時になぜ指定した文字コードではなくUTF-8の文字コードになるかということです。
daisuke7

2018/10/06 10:11

String afterString = new String(beforeByte, "EUC-JP"); beforeByteバイト配列をEUC-JPエンコーディングと見なしてStringにしていますが、 for(byte b: afterString.getBytes() ここでデフォルト文字セットのバイト配列にしています。 Stringになった時は、元の文字エンコーディングは関係ありません。
4qh9gwgrfr

2018/10/06 10:18

盲点でした。ありがとうございます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問