質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.35%

  • HTML

    9518questions

    HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

  • XML

    686questions

    XMLは仕様の1つで、マークアップ言語群を構築するために使われています。

  • 文字コード

    214questions

    文字コードとは、文字や記号をコンピュータ上で使用するために用いられるバイト表現を指します。

  • XPath(XML Path)

    82questions

    XML Path Language (XPath; XMLパス言語)は、マークアップ言語 XML に準拠した文書の特定の部分を指定する言語構文の事をいいます。XPathはXMLとは別の構文を使用します。XMLドキュメントの抽象、論理ストラクチャ上で動作します。

  • XMLパーサ

    37questions

    XML文書のテキストデータだけを抜き出して、アプリケーションソフトが利用しやすい形式に変換させるソフトウェアをXMLパーサと呼びます。

[HTMLタグ]xmllintでエラー

受付中

回答 2

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 1,570

dlrowolleh

score 112

前提・実現したいこと

Xmllintでファイルの中を見ようと思っています。

hoge.html

がどうなっているのかを解析したいのですが、やり方がよくわかりませんでした。

発生している問題・エラーメッセージ

$ xmllint --shell --html hoge.html 

とすると

encoding error : input conversion failed due to input error, bytes 0xB0 0x97 0xE6 0xB1
encoding error : input conversion failed due to input error, bytes 0xB0 0x97 0xE6 0xB1
I/O error : encoder error


と出ました。
その後、

/ > 

と端末上に表示されます。

エラーコードで検索してもよくわかりませんでした。

該当のソースコード

     1 <html>
     2 <head>
     3 <title>ホームページのタイトル</title>
     4 <link rel="stylesheet" media="all" href="Styles.css" type="text/css">
     5 <META http-equiv="Content-Type" content="text/html; charset=EUC-JP">
     6 <script language="javascript">
     7 <!--
     8 function Check(){
     9 ▸-if(document.Form1.Err.value!=""){
    10 ▸-▸-parent.location="ErrMsg.php?Err="+document.Form1.Err.value;
    11 ▸-}
    12 ▸-▸-
    13 }
    14 -->
    15 </script>
    16 
    17 </head>
    18 
    19 <body MS_POSITIONING="GridLayout" class="bodyInfo" onLoad="Check()">
    20 <form name="Form1" action="">
    21 <input type="hidden" name="Err" value="">
    22 ▸-<table border="0" cellpadding="0" cellspacing="0" style="position:absolute; top:0px; left:5px;">
    23 ▸-  <tr>
    24 ▸-<td>
    25 ▸-▸-<table style="font-size:12px;" border="1" class="hyoMenu" width="870">
    26 ▸-▸-▸-▸-▸-<tr align="right">
    27 ▸-▸-▸-▸-<td width="40" bgcolor="#FFFFCC">2017</td>
    28 ▸-▸-▸-▸-<td width="20" bgcolor="#FFFFCC">01</td>
    29 ▸-▸-▸-▸-<td width="20" bgcolor="#FFFFCC">17</td>
    30 ▸-▸-▸-▸-<td width="20" bgcolor="#FFFFCC">19</td>
~省略~
  4327 ▸-▸-▸-▸-▸-▸-▸-
  4328 ▸-</table>
  4329 ▸-</td>
  4330   </tr></table>
  4331 </form>
  4332 </body>
  4333 </html>

試したこと

GoogleCrhome
で右クリック→要素の調査→Copy→CopyXpathとしたときは

/html/body/form/table/tbody/tr/td/table/tbody/tr[1]/td[1]

と取得できました。

また、

$ hoge.html

<frame name="Title" src="Data.php?MstCode=0123456&Time=2017011724" scrolling="no">


となっているところのsrc=
Data.php?MstCode=0123456&Time=2017011724というファイルです。

Xmllintに文字エンコードに関するオプション

xmllint --encodeでできるようでした。
なので、

xmllint --shell --encode utf-8 hoge.html

としてみたのですが、

hoge.html:17: parser error : Opening and ending tag mismatch: META line 5 and head
</head>
^
hoge.html:4331: parser error : Opening and ending tag mismatch: input line 21 and form
</form>
^
hoge.html:4332: parser error : Opening and ending tag mismatch: form line 20 and body
</body>
^
hoge.html:4333: parser error : Opening and ending tag mismatch: body line 19 and html
</html>
^
hoge.html:4334: parser error : Premature end of data in tag link line 4
hoge.html:4334: parser error : Premature end of data in tag head line 2
hoge.html:4334: parser error : Premature end of data in tag html line 1


と表示されました。

$ xmllint --shell --encode CP932 hoge.html

また、としてみたところ、

hoge.html:17: parser error : Opening and ending tag mismatch: META line 5 and head
</head>
       ^
hoge.html:4331: parser error : Opening and ending tag mismatch: input line 21 and form
</form>
       ^
hoge.html:4332: parser error : Opening and ending tag mismatch: form line 20 and body
</body>
       ^
hoge.html:4333: parser error : Opening and ending tag mismatch: body line 19 and html
</html>
       ^
hoge.html:4334: parser error : Premature end of data in tag link line 4
hoge.html:4334: parser error : Premature end of data in tag head line 2
hoge.html:4334: parser error : Premature end of data in tag html line 1


エンコードは何を指定すれば良さそうですか?(解決?)
エンコードとは関係なさそうなエラーも出てしまったようですが、どのように対処すれば良さそうでしょうか?

追記

$ xmllint --shell --encode utf-8 hoge.html

↓から

$ xmllint --shell --encode EUC-JP hoge.html

としてみましたが、エラーは変わりませんでした。

hoge.html:17: parser error : Opening and ending tag mismatch: META line 5 and head
</head>
^
hoge.html:4331: parser error : Opening and ending tag mismatch: input line 21 and form
</form>
^
hoge.html:4332: parser error : Opening and ending tag mismatch: form line 20 and body
</body>
^
hoge.html:4333: parser error : Opening and ending tag mismatch: body line 19 and html
</html>
^
hoge.html:4334: parser error : Premature end of data in tag link line 4
hoge.html:4334: parser error : Premature end of data in tag head line 2
hoge.html:4334: parser error : Premature end of data in tag html line 1


となりました。
何が原因だと考えられるのでしょうか...。

追記

hoge.htmlxmllintで解析しようとしているファイル)
はもともと、
サイトのHTMLで
frameタグのsrc属性で関連付けられて
表示されていたものです。
また、閉じタグがないためエラーが出ているとのことですが、
HTMLにて終了タグがいるたぐいらないタグ
によると、
linkタグにはそもそも閉じタグは無いということらしいです…。
正しいファイルでも閉じタグが無いと
xmllintはエラーを吐き出すのなら、閉じタグをつければ良いと思うのですが、
どこにつけるべきでしょうか…?
タグは</link>で良いですか…?

補足情報(言語/FW/ツール等のバージョンなど)

より詳細な情報

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

+1

encoding error
と出ているので、文字のエンコードに失敗しているのだと思います。
Xmllintに文字エンコードに関するオプションはありませんか?

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/01/18 02:14

    ご回答いただきありがとうございます。
    >Xmllintに文字エンコードに関するオプション

    xmllint --encodeでできるようでした。
    なので、
    xmllint --shell --encode utf-8 hoge.html
    としてみたのですが、
    hoge.html:17: parser error : Opening and ending tag mismatch: META line 5 and head
    </head>
    ^
    hoge.html:4331: parser error : Opening and ending tag mismatch: input line 21 and form
    </form>
    ^
    hoge.html:4332: parser error : Opening and ending tag mismatch: form line 20 and body
    </body>
    ^
    hoge.html:4333: parser error : Opening and ending tag mismatch: body line 19 and html
    </html>
    ^
    hoge.html:4334: parser error : Premature end of data in tag link line 4
    hoge.html:4334: parser error : Premature end of data in tag head line 2
    hoge.html:4334: parser error : Premature end of data in tag html line 1
    と表示されました。
    エンコードは何を指定すればいいのでしょうか...?
    エンコードとは関係なさそうなエラーも出てしまったようですが、どのように対処すれば良さそうでしょうか...?

    キャンセル

  • 2017/01/18 11:53

    content="text/html; charset=EUC-JP" なので EUC-JPじゃないんですか?

    キャンセル

  • 2017/01/18 12:16

    Y.H.さん
    コメントいただきありがとうございます。
    ›content="text/html; charset=EUC-JP" なので EUC-JPじゃないんですか?
    $ xmllint --shell --encode utf-8 hoge.html

             ↓から

    $ xmllint --shell --encode EUC-JP hoge.html
    としてみましたが、エラーは変わりませんでした。

    hoge.html:17: parser error : Opening and ending tag mismatch: META line 5 and head
    </head>
    ^
    hoge.html:4331: parser error : Opening and ending tag mismatch: input line 21 and form
    </form>
    ^
    hoge.html:4332: parser error : Opening and ending tag mismatch: form line 20 and body
    </body>
    ^
    hoge.html:4333: parser error : Opening and ending tag mismatch: body line 19 and html
    </html>
    ^
    hoge.html:4334: parser error : Premature end of data in tag link line 4
    hoge.html:4334: parser error : Premature end of data in tag head line 2
    hoge.html:4334: parser error : Premature end of data in tag html line 1

    となりました。
    何が原因だと考えられるのでしょうか...。

    キャンセル

  • 2017/01/18 12:30

    あぁ、「文字コードのエラーについて」という質問については解決してるんですね。
    単純にxmllint の結果としてxmlとしてみた時に構造にエラーがありますよというメッセージですね。
    「<link rel="stylesheet" media="all" href="Styles.css" type="text/css">」に閉じタグが無いですよというxmllint空の指摘です。

    キャンセル

  • 2017/01/18 17:00

    ありがとうございます!
    分かりやすくしていただき、助かります。
    hoge.html(xmllintで解析しようとしているファイル)
    はもともと、
    frameタグのsrc属性で関連付けられて
    サイトに表示されていたものです。
    また、閉じタグがないためエラーが出ているとのことですが、
    http://vllv.us/Junk/htmlTag/
    によると、
    linkタグにはそもそも閉じタグは無いということらしいです…。
    正しいファイルでも閉じタグが無いと
    xmllintはエラーを吐き出すのなら、閉じタグをつければ良いと思うのですが、
    どこにつけるべきでしょうか…?
    タグは</link>で良いですか…?
    長文失礼しました。
    度々すみません。
    何卒ご教授いただけましたら幸いです。

    キャンセル

  • 2017/01/18 18:39

    kei344さんの回答およびicchiiさんのコメントが参考になると思います

    キャンセル

0

linkタグにはそもそも閉じタグは無いということらしいです…。

xmllint はXML文書として正しいかを判断するものなのでは?HTMLでは省略可能な閉じタグもXHTMLでは必須です。

【XHTMLの書き方と留意点】
http://www.kanzaki.com/docs/html/xhtml1.html

空要素のタグは />で閉じる
また、HTMLのimg要素やbr要素のように、内容モデルを持たない空要素(HTMLでは開始タグしか使わないもの)は、XMLにおいては<br/>という具合に、タグを閉じるときに /> を使わなければなりません(空要素タグと呼ばれています)。ただし、この書式ではHTMLブラウザがタグを正しく認識できない可能性があるので、/ の前にスペースを置いて、 <br /> のように記述します。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/01/18 18:34

    xmllintは詳しくないですが、--htmlオプションを付けるとhtmlパーサーを使うみたいですよ
    http://takuya-1st.hatenablog.jp/entry/2015/12/11

    キャンセル

  • 2017/01/18 18:49

    情報ありがとうございます。私も詳しくないためとても助かります。

    キャンセル

同じタグがついた質問を見る

  • HTML

    9518questions

    HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

  • XML

    686questions

    XMLは仕様の1つで、マークアップ言語群を構築するために使われています。

  • 文字コード

    214questions

    文字コードとは、文字や記号をコンピュータ上で使用するために用いられるバイト表現を指します。

  • XPath(XML Path)

    82questions

    XML Path Language (XPath; XMLパス言語)は、マークアップ言語 XML に準拠した文書の特定の部分を指定する言語構文の事をいいます。XPathはXMLとは別の構文を使用します。XMLドキュメントの抽象、論理ストラクチャ上で動作します。

  • XMLパーサ

    37questions

    XML文書のテキストデータだけを抜き出して、アプリケーションソフトが利用しやすい形式に変換させるソフトウェアをXMLパーサと呼びます。