ファイル出力時の文字列のエンコード設定が効かない

解決済

回答 2

投稿

  • 評価
  • クリップ 0
  • VIEW 285

snc

score 11

前提・実現したいこと

javaを使用して、任意の文字を書き込んだテキストファイルを吐き出す処理を行っています。
テキストファイルを開いた場合にエンコードがUTF-8になってて欲しいのですがある条件で上手くいきません、、、

発生している問題・エラーメッセージ

書き出した文字列に全角が含まれている場合、テキストファイルはUTF-8になっている。
書き出した文字列が半角英数の場合、なぜかShift-JISになっている。

どの文字列を書き込んだ場合でも、UTF-8になっていて欲しいです。
書き出したファイルは、秀丸やさくらエディタで開いてエンコードを確認しています。

該当のソースコード

FileOutputStream outputStream = null;
OutputStreamWriter outputStreamWriter = null;
try {
    BufferedWriter bw = new BufferedWriter(new OutputStreamWriter(
        new FileOutputStream("C:\txt\sample.txt", false), "UTF-8"));

    bw.write("サンプルテキスト");
    bw.close();
} catch (Exception ex) {
    throw ex;
} finally {
    if (outputStreamWriter != null) {
        try {
            outputStreamWriter.close();
            outputStream.close();
        } catch (IOException ioe) {
            ioe.printStackTrace();
            throw ioe;
        }
    }
}

  
bw.write("サンプルテキスト")だとテキストファイルのエンコードはUTF-8。
bw.write("サンプルText")だとテキストファイルのエンコードはUTF-8。
bw.write("sampleText")だとテキストファイルのエンコードはShift-JIS。

試したこと

ソースを記述しているeclipseの文字エンコードもUTF-8で確認済み。
書き込む文字列をバイトに戻して、明示的にUTF8にしても現象は変わらず。。。

String str = "sampleText";
String utf8Str = new String(str.toString().getBytes("UTF-8"), "UTF-8");
bw.write(utf8Str);

  
テキストを開くツール(秀丸、さくらエディタ)の設定に問題があるのか、、、
どなたかご教授いただけますでしょうか。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

checkベストアンサー

+2

おそらく。
書き出した文字列が半角英数だけの場合に、秀丸やさくらエディタがエンコードを判定できずにとりあえずShift-JISとしているだけです。
なぜなら、書き出した文字列が半角英数だけの場合は、UTF-8で出力してもShift-JISで出力しても、同じ結果になるからです。
だから気にする必要はないと思われます。

BOM付きUTF-8にでもすれば、秀丸やさくらエディタでも「UTF-8」と判定してくれるでしょうが、おそらくそれに意味は無いでしょう。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/04/04 17:50

    迅速なご回答ありがとうございます。半角英数の場合は、文字コードは同一のものになるということを知りませんでした。納得がいきました、ありがとうございます。

    キャンセル

  • 2019/04/04 18:12

    「半角英数の場合は、文字コードは同一のものになる」という表現はあまり正確ではありません。
    「半角英数の場合は、UTF-8でもShift-JISでも同じバイナリになる」が正しいです。

    キャンセル

  • 2019/04/04 18:17

    間違えて覚えてしまうとこでした。指摘頂きありがとうございます。

    キャンセル

+1

テキストファイルには文字コードを示すデータは(一部を除いて)付随しておりません.
その場合, エディタは複数バイト文字のコードからUTF8かシフトJISかを判断していると思います.
ですが, 英数字はUTF8でもシフトJISでも同じなので判断が付かず, デフォルトとしてシフトJISと表示しているのではないでしょうか.

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/04/04 17:52 編集

    ご回答ありがとうございます。半角英数の場合は同一のバイナリであることを知り、納得がいきました。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.21%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる