質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.53%

  • HTML

    8944questions

    HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

  • CSS

    5767questions

    CSSはXMLやHTMLで表現した色・レイアウト・フォントなどの要素を指示する仕様の1つです。

class名とid名を一覧化したい

解決済

回答 4

投稿 編集

  • 評価
  • クリップ 1
  • VIEW 322

oimo014

score 93

直接プログラミングに関わる質問ではなくて申し訳ございません。

前提・実現したいこと

サイト、ディレクトリ、ページ(HTML)のいずれかの単位で使用しているclass名とid名を抽出し、
テキストファイルやエクセルファイルなどで保存したいと思っています。
最終的には複数のページで使用しているclass名、id名すべてをドキュメントとして残したいです。

試したこと

以下のサイトを使用してページ単位で使用しているclass名、id名はあらかた抽出できたのですが、
idとclass両方が指定されている要素は、class部分が無視されてしまいました。
http://extractcss.com/

何かいい方法やツールをご存知の方がいらっしゃいましたら、ご教示いただけますと大変助かります。
よろしくお願いいたします。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • yambejp

    2017/12/27 14:36

    自ページ内に組み込んでいいなら、DOMとして認識できるので比較的カンタンにいけそうな気がします。別のページを解析したりテキストとしてコピペしてチェックする場合は文字列の評価になるので多少処理が面倒です。具体的などういうチェッカが希望でしょうか?

    キャンセル

  • oimo014

    2017/12/27 14:43

    コメントいただきありがとうございます。 最終的には複数のページで使用しているclass名、id名すべてをドキュメントとして残したいため、後者に当たるかと思います。 質問にも追記してきます。

    キャンセル

  • yambejp

    2017/12/27 14:49

    文字列からidやクラスを抜き出すのでしたらやはりjavascriptで正規表現をご利用になることだと思います。サーバーサイドの技術を使っていいなら言語に寄ってHTMLの解析ツールは用意されていたりライブラリが公開されていたりするでしょう。またクライアントのローカルで動く解析ツールいくつか公開されているようです

    キャンセル

  • x_x

    2018/01/02 17:04

    動的にidやclassがつけられたりすると思うのですが、考えなくてもいいのでしょうか?

    キャンセル

回答 4

+3

単に列挙してはダメなのでしょうか?

document.querySelectorAll('[class]').forEach(e=>console.log(e.className));
document.querySelectorAll('[id]').forEach(e=>console.log(e.id));

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/01/02 19:20

    どうせなら、e.classNameよりe.classListを使ったほうがいいかと。

    キャンセル

  • 2018/01/02 21:05

    重複をなくしたほうがいいかなとかコピーしやすいようにウインドウ開いたほうがいいのかとかブックマークレットにしたほうがいいのかとか考えていろいろ書きなおしていたのですが、要件もはっきりしないのに凝ってもなーと思い直して今の形になってしまいました><

    キャンセル

checkベストアンサー

+2

 正規表現

ローカルにファイルがある前提ですが、grepで検索してみてはいかがでしょうか。
'リモートにしかファイルが存在しないのなら、Webサイトを丸ごとダウンロードする必要があります。)

id\s*=\s*(?:"[^"]+"|'[^']+'|[^"'=<>\s]+)
class\s*=\s*(?:"[^"]+"|'[^']+'|[^"'=<>\s]+)

抽出したログを正規表現の一括置換、Excelなどで整形します。

 DOM

ページ単位なら、x_x さんが回答されているようにJavaScriptを使うのが楽です。
以下、未検証ですが、コードの流れを追うのに使って下さい。

var idList = Array.prototype.map.call(document.querySelectorAll('[id]'), element => element.id);

var classList = Array.prototype.reduce.call(document.querySelectorAll('[class]'), (classList, element) => (Array.prototype.push.apply(classList, element.classList), classList), []);

複数ページに対応するには、ページ全体のa要素を抽出し、見えないiframe要素を構築して、対象のページのDOMを参照し、上記コードと同じ実装を再帰的に繰り返します。
内部リンク/外部リンクの区別は location.host と比較すれば、確認出来るでしょう。

この方法の良いところはURIとid/class一覧の対応関係を確実に保証出来ることです。
正規表現の場合は実ファイルの場所との対応関係になりますが、mod_rewiteなどを使ってURIを改変していると、URIとの対応関係を知るためにもう一手間必要になります。

Re: oimo014 さん

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/01/09 19:27

    返信が遅くなり申し訳ございません。ご教示いただきました、正規表現を用いたgrep検索でやりたいことにかなり近づくことができました。今回はこちらの方法で乗り切れそうです。ご丁寧にご回答いただきましてありがとうございました。

    キャンセル

+2

スクレイピングツール使うのが一番手っ取り早く安全にできるかと思います。
個人的にはJavaScriptで同処理を行うのであれば、この辺がおすすめです。
puppeteer

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

+1

正規表現の置換でごり押し置換してexcelファイルに貼るとかですかね?

検索文字列:(.*?)( id=(.*?)(\s|>))
置換文字列:id=\3\r\n

ゴミが残るかもしれませんがあとはなんとかできるかと

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.53%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る

  • HTML

    8944questions

    HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

  • CSS

    5767questions

    CSSはXMLやHTMLで表現した色・レイアウト・フォントなどの要素を指示する仕様の1つです。