質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.49%

  • Android

    6617questions

    Androidは、Google社が開発したスマートフォンやタブレットなど携帯端末向けのプラットフォームです。 カーネル・ミドルウェア・ユーザーインターフェイス・ウェブブラウザ・電話帳などのアプリケーションやソフトウェアをひとつにまとめて構成。 カーネル・ライブラリ・ランタイムはほとんどがC言語/C++、アプリケーションなどはJavaSEのサブセットとAndroid環境で書かれています。

  • 文字コード

    211questions

    文字コードとは、文字や記号をコンピュータ上で使用するために用いられるバイト表現を指します。

全ての文字コードに対応したhttp通信について教えてください。

受付中

回答 3

投稿

  • 評価
  • クリップ 0
  • VIEW 1,070

mummuu

score 2

プログラミング初心者です。
現在、Android studio (java)を利用してアプリケーションを作成しています。

HTTP通信をして、web上のテキストデータを取り出していますが、設定されている文字コードがまばらで取り出しに困っています。

            BufferedReader br = new BufferedReader(
                   new InputStreamReader(response.getEntity().getContent(),"文字コード"
             ));

このプログラムで、任意の文字コードは取り出せるようになりましたが設定以外のものは文字化けしてしまいます。
全ての文字コードに対応したhttp通信をするためには、どうしたらいいでしょうか。
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 3

+3

response.getEntity().getContentEncoding()でレスポンスの文字コード取得できないでしょうか?

そのあと、上記メソッドで取得した文字コードから指定の文字コードに変換かければ
あまり文字化けることないかと思います。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

+3

全ての文字コードに対応したhttp通信をするためには、どうしたらいいでしょうか。
結論から言えば、それは不可能です。

仮に、そこを「よしなに」機械的にできるのであれば、多くのプログラム言語において「fromからtoにコンバートする」関数で from も to も指定しなければいけない理由がありません。from は不要で、toだけあれば十分です。
PHPで言えば、mb_convert_encoding とか。(あまり良い例ではないけど…)

だからこそ、HTML の記述では文字コードを明示することが推奨されているわけですし、WEB上のドキュメントを取得する際には、<meta charset="UTF-8" /> などを取得して判定する以外に方法はないかと思います。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

0

http通信(httpというプロトコル)は、通信されるデータの中身(それが文字列なのか、文字列だとしたらどんなコード体系でエンコードされているか)については全く関知しない(それはhttpを利用するアプリ側の責任)なので、「全ての文字コードに対応したhttp通信をする」という考え自体がちょっとズレていると思います。

それで、受信した文字列を適切に処理するために、どのようにエンコードされたデータなのかをアプリ側で調べなければならない訳ですが、
HTTP通信をして、web上のテキストデータを取り出しています
というのが具体的にどのような処理なのかが分からないので具体的には回答できません。

ただ、Kosuke_Shibuyaさんの回答にある通り、本来はデータを提供する側がエンコードの種類を明示するべきですし、利用者側は何らかの方法でそれを確認するのが筋です。

とはいえ、数あるWebサイトが全てエンコーディング方法を親切に明示してくれている訳はないので、利用側で「推測」することで対応している事例はあります。あくまでも推測ですので 100% 対応出来る訳ではないですが、少なくともエラーの発生をかなり減らせる可能性はあります。
それで、以下の解説をご参考になさってはいかがでしょうか。
Javaで文字コード簡易判定
文字コードを推測する

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.49%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る

  • Android

    6617questions

    Androidは、Google社が開発したスマートフォンやタブレットなど携帯端末向けのプラットフォームです。 カーネル・ミドルウェア・ユーザーインターフェイス・ウェブブラウザ・電話帳などのアプリケーションやソフトウェアをひとつにまとめて構成。 カーネル・ライブラリ・ランタイムはほとんどがC言語/C++、アプリケーションなどはJavaSEのサブセットとAndroid環境で書かれています。

  • 文字コード

    211questions

    文字コードとは、文字や記号をコンピュータ上で使用するために用いられるバイト表現を指します。