直接プログラミングに関わる質問ではなくて申し訳ございません。
前提・実現したいこと
サイト、ディレクトリ、ページ(HTML)のいずれかの単位で使用しているclass名とid名を抽出し、
テキストファイルやエクセルファイルなどで保存したいと思っています。
最終的には複数のページで使用しているclass名、id名すべてをドキュメントとして残したいです。
試したこと
以下のサイトを使用してページ単位で使用しているclass名、id名はあらかた抽出できたのですが、
idとclass両方が指定されている要素は、class部分が無視されてしまいました。
http://extractcss.com/
何かいい方法やツールをご存知の方がいらっしゃいましたら、ご教示いただけますと大変助かります。
よろしくお願いいたします。
-
気になる質問をクリップする
クリップした質問は、後からいつでもマイページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
クリップを取り消します
-
良い質問の評価を上げる
以下のような質問は評価を上げましょう
- 質問内容が明確
- 自分も答えを知りたい
- 質問者以外のユーザにも役立つ
評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。
質問の評価を上げたことを取り消します
-
評価を下げられる数の上限に達しました
評価を下げることができません
- 1日5回まで評価を下げられます
- 1日に1ユーザに対して2回まで評価を下げられます
質問の評価を下げる
teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。
- プログラミングに関係のない質問
- やってほしいことだけを記載した丸投げの質問
- 問題・課題が含まれていない質問
- 意図的に内容が抹消された質問
- 広告と受け取られるような投稿
評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。
質問の評価を下げたことを取り消します
この機能は開放されていません
評価を下げる条件を満たしてません
質問の評価を下げる機能の利用条件
この機能を利用するためには、以下の事項を行う必要があります。
- 質問回答など一定の行動
-
メールアドレスの認証
メールアドレスの認証
-
質問評価に関するヘルプページの閲覧
質問評価に関するヘルプページの閲覧
+3
単に列挙してはダメなのでしょうか?
document.querySelectorAll('[class]').forEach(e=>console.log(e.className));
document.querySelectorAll('[id]').forEach(e=>console.log(e.id));
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
checkベストアンサー
+2
正規表現
ローカルにファイルがある前提ですが、grepで検索してみてはいかがでしょうか。
'リモートにしかファイルが存在しないのなら、Webサイトを丸ごとダウンロードする必要があります。)
id\s*=\s*(?:"[^"]+"|'[^']+'|[^"'=<>\s]+)
class\s*=\s*(?:"[^"]+"|'[^']+'|[^"'=<>\s]+)
抽出したログを正規表現の一括置換、Excelなどで整形します。
DOM
ページ単位なら、x_x さんが回答されているようにJavaScriptを使うのが楽です。
以下、未検証ですが、コードの流れを追うのに使って下さい。
var idList = Array.prototype.map.call(document.querySelectorAll('[id]'), element => element.id);
var classList = Array.prototype.reduce.call(document.querySelectorAll('[class]'), (classList, element) => (Array.prototype.push.apply(classList, element.classList), classList), []);
複数ページに対応するには、ページ全体のa要素を抽出し、見えないiframe要素を構築して、対象のページのDOMを参照し、上記コードと同じ実装を再帰的に繰り返します。
内部リンク/外部リンクの区別は location.host
と比較すれば、確認出来るでしょう。
この方法の良いところはURIとid/class一覧の対応関係を確実に保証出来ることです。
正規表現の場合は実ファイルの場所との対応関係になりますが、mod_rewiteなどを使ってURIを改変していると、URIとの対応関係を知るためにもう一手間必要になります。
Re: oimo014 さん
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
+2
スクレイピングツール使うのが一番手っ取り早く安全にできるかと思います。
個人的にはJavaScriptで同処理を行うのであれば、この辺がおすすめです。
puppeteer
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
+1
正規表現の置換でごり押し置換してexcelファイルに貼るとかですかね?
検索文字列:(.*?)( id=(.*?)(\s|>))
置換文字列:id=\3\r\n
ゴミが残るかもしれませんがあとはなんとかできるかと
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
15分調べてもわからないことは、teratailで質問しよう!
- ただいまの回答率 91.05%
- 質問をまとめることで、思考を整理して素早く解決
- テンプレート機能で、簡単に質問をまとめられる
質問への追記・修正、ベストアンサー選択の依頼
yambejp
2017/12/27 14:36
自ページ内に組み込んでいいなら、DOMとして認識できるので比較的カンタンにいけそうな気がします。別のページを解析したりテキストとしてコピペしてチェックする場合は文字列の評価になるので多少処理が面倒です。具体的などういうチェッカが希望でしょうか?
oimo014
2017/12/27 14:43
コメントいただきありがとうございます。 最終的には複数のページで使用しているclass名、id名すべてをドキュメントとして残したいため、後者に当たるかと思います。 質問にも追記してきます。
yambejp
2017/12/27 14:49
文字列からidやクラスを抜き出すのでしたらやはりjavascriptで正規表現をご利用になることだと思います。サーバーサイドの技術を使っていいなら言語に寄ってHTMLの解析ツールは用意されていたりライブラリが公開されていたりするでしょう。またクライアントのローカルで動く解析ツールいくつか公開されているようです
x_x
2018/01/02 17:04
動的にidやclassがつけられたりすると思うのですが、考えなくてもいいのでしょうか?