質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.48%

  • HTML

    9272questions

    HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

  • HTML5

    4168questions

    HTML5 (Hyper Text Markup Language、バージョン 5)は、マークアップ言語であるHTMLの第5版です。

HTML で文字コード宣言を文書の先頭から 1024 バイト以内に記述する件

解決済

回答 3

投稿

  • 評価
  • クリップ 2
  • VIEW 1,498

tetsu22

score 7

「文字エンコーディング宣言は、HTML 文書の先頭から 1024 バイト以内に記述する必要がある」と学びましたが、それについて 4 点疑問があります。
1) 「文字コード宣言」全体を 1024 バイト以内に書かねばならないのか?
2) DOCTYPE宣言は 1024 バイトに含まれるか?
3) コメントは 1024 バイトに含まれるか?
4) その文字コードでエンコーディングした文字列( 2 進数の列)の 1024 バイト以内という理解で正しいか?
細かいことですが、どうかよろしくお願いいたします。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • matobaa

    2016/05/19 17:02 編集

    (解決したので依頼を削除)

    キャンセル

回答 3

checkベストアンサー

+3

HTML5日本語訳
html5の仕様書で1024バイトとなっています。

ここを見る限りブラウザではこの仕様にしたがって1024バイトを事前にスキャンして文字コードを判別しているようです。

2,3に関しては受信したデータサイズで判別してると思うので、確認していませんが両方とも含まれると考えるべきでしょう

4に関してもデータサイズの問題ですので文字コードは関係ないと思います。

とはいっても<head>内の最初の方にかけば1024以内に収まるので意識する必要はさほどなさそうです。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2016/05/19 18:46 編集

    ええと、html文書を送信する際、例えばエディタでShift_JISで記述していれば、Shift_JISでエンコードされてブラウザに送信されますよね?違いますでしょうか?
    そうすると、文字コードが分からねばデコードできませんので、「エンコードされた状態」の先頭から1024バイト以内と理解したのですが、違いますでしょうか?
    文字コード宣言に使われている半角英数字や基本的な半角記号は、どの文字コード体系でも同じコードになるでしょうから(大小文字の違いを除けば)、デコードしなくても文字コード宣言は探索できるでしょうし。。

    ほとんど問題にならないのは承知の上なのですが、細かいことが気になるたちでして、よろしくお願いいたします。

    キャンセル

  • 2016/05/19 19:16

    これはブラウザの仕様を確認したわけではありませんが、先頭の1024バイトを取得してmetaタグのcharsetを判別する場合は半角英数の文字コード(Aなら41)は共通なのでデコードする必要はないのではないでしょうか。

    4番目の質問に関しては質問の内容がきちんと把握できていないようでした。
    「文字コードは関係ない」と表現したのは、metaタグでShift-JISと指定されていた場合
    ファイルがShift-JISでエンコードされている場合
    ファイルがUTF-8でエンコードされている場合
    どちらでもデータの先頭1024バイトを取得するため(全角の有無で取得できる内容が変わってしまいますが)metaタグの指定は関係ないという意味でした。

    キャンセル

  • 2016/05/19 23:01 編集

    追記です。そもそも、ある文字列が「何バイト」かは、コード化(エンコード)してはじめて計算できるものですから、エンコードして送られた情報のことだと考えました。

    たしかにほとんど問題にはならないのですが、たとえばルート要素の前にコメントを350文字ほど長々と書けば(只のアホですが・・)UTF-8なら日本語は一文字3バイト以上ですから文字コード宣言は 1024 バイト以降になりアウトですよね。

    自分のグーグルクロムはデフォルトでShift_JISでデコードしているようですので(文字コードを宣言せずに漢字仮名交じりの短文のhtml文書を、UTF-8,EUC-JP,Shift_JIS,ISO-2022-JPでそれぞれ記述したところ、Shift_JIS以外はすべて文字化けしてしまいました;)、上記のようなことをすれば文字化け或いはデコードのし直しをすることになりそうです。

    まずありえない状況でしょうが。。

    ただ、正確に理解したいもので、ご質問しております。

    キャンセル

  • 2016/05/19 23:09 編集

    すみません、ご回答いただいているのに気付かず、上の追記を書いてしまいました。

    なるほどそういう意味でしたか!確かに、もし全角文字を文字コード宣言の前に書くとすれば、コメント位しかないでしょうから、先にコメントさえ書かねば、どのコード体系でも文字コード宣言までのバイト数は同じになりますね;
    「文字コードは関係ない」というのはそういう意味だったのですね。

    自分の理解と同じようですので安心しました。1~4全てスッキリしました。どうも有難うございました!

    キャンセル

  • 2016/05/20 00:49

    皆さま色々教えて下さり有難うございます。sharowさんやhideさんが上で追加回答下さっていたのも今気付いて読みました;

    自分のコメントを少し分かりやすくなるよう修正しました。

    キャンセル

+3

本題からは外れますが、ローカルファイルやサーバ設定が固定でヘッダが送れない、という場合以外は文書内の<meta charset>を使うより、HTTPヘッダのContent-typeにcharset指定するほうがいいかなと思いました。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2016/05/19 19:31

    そういう指定の方法もあるのですね!自分にはまだよく分かりませんが、ぜひ勉強してみます。有難うございました。

    キャンセル

+2

1) 「文字コード宣言」全体を 1024 バイト以内に書かねばならないのか? 

metaタグの終わりの>をもって宣言となります。

エンコーディングの指定を見つけた瞬間に、ブラウザはそのエンコーディングでドキュメントを再度パースする必要があります。もしエンコーディングの指定がドキュメントの最後にあった場合、ドキュメントの最後まで読み込んだ後でないと正しいコンテンツを表示するのは無理です。最初の方にあったほうが都合がいいのです。これはJPEGやPNGで最初の方(ヘッダ部)に画像サイズやフォーマット情報があることによる利点と同じです。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2016/05/19 19:29

    確かにそうですよね。hideさんの示して下さったリンク先の記述からもハッキリいたしました。有難うございました。
    ※1024 バイト以内に書かなかった場合は無視されるのでなく、そのブラウザのデフォルトの文字コードでデコード・パースしていって、文字コード指定を見つけた時点で、最初からパースをやり直すということですね。それは手間と時間の無駄になるので、最初の1024バイトをブラウザは最初に確認する・そこに記述する、という方法をとっているのですね。よく分かりました。一度実験して確認してみます。

    キャンセル

  • 2016/05/19 20:04 編集

    「そのブラウザのデフォルト文字コード」はISO-8859-1(いわゆるlatin-1)です。
    https://www.w3.org/International/articles/http-charset/index

    ところでContent-Typeヘッダや<meta>で指定されなかった場合、JoelOnSoftwareのUNICODEに関する記事で、昔のIEの挙動に関する面白い話があります(今のIEは違うかも?)。いわく、統計的傾向に基づきコンテンツのエンコーディングを推測するのだそうです。よくある「特定のブラウザで見ると文字化けする」という場合に、エンコーディングの指定自体が間違っている場合を除くと、この推測の精度や、そもそも推測するように実装されているのかなどの点で文字化けするか否かを分けているようです。
    https://www.supinf.co.jp/tech/2014/12/03/joel-unicode/
    ちょっと雑談でした。

    キャンセル

  • 2016/05/19 20:17

    そういえば昔、EUCの時代に最初の文字で判別されるから<!--京-->入れるってのもありましたね。

    キャンセル

  • 2016/05/19 20:29

    <!--京-->初めて知りました、なるほどw 物は使い様ですね。
    コメントのコメント以外での利用は<!--天安門事件-->くらいだと思ってました。

    キャンセル

  • 2016/05/20 01:03

    >ISO-8859-1(いわゆるlatin-1)
    それもW3Cの仕様で決められていたのですね!英語がそれほど得意でないこともあり、なかなかそこまで調べられませんでした。有難うございます!

    ブラウザ側でエンコーディングを推測すればいいのでないか・または実際に推測しているのでないかという疑問は自分も持っていたのですが、少なくとも昔のIEはそうしていたのですね。非常に興味深いです。

    自分はまだまだかなり初心者マークですので、詳しくなれるよう頑張ります。

    キャンセル

関連した質問

同じタグがついた質問を見る

  • HTML

    9272questions

    HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

  • HTML5

    4168questions

    HTML5 (Hyper Text Markup Language、バージョン 5)は、マークアップ言語であるHTMLの第5版です。