質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.47%
PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

Q&A

解決済

1回答

1674閲覧

[PHP]大量のHTMLファイルをパースするには

zhjkwsd

総合スコア24

PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

0グッド

0クリップ

投稿2014/11/11 08:40

ローカルに大量のHTMLファイルがあります。これらのファイルからすべてのリンクを抽出するスクリプトを書きたいのですが、いまいち方法が分かりません。正規表現で<a>タグの部分だけを抽出すればよいのかな?と思っていますが・・・・。
PHPで同じようなことをやられたはいませんか?

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

正規表現だとかなり大変です。
DOMを使いましょう。

lang

1$res = array(); 2$dom = new DOMDocument('1.0'); 3@$dom->loadHTMLFile("./links.html"); 4 5$elements = $dom->getElementsByTagName('a'); 6foreach ( $elements as $element ) { 7 $url = $element->getAttribute('href'); 8 // : 9 // いろいろな処理 10 // : 11 $res[] = $url; 12} 13 14echo var_dump($arr);

これだけだとページ内リンクやサイト内リンクが「#hoge」「/access/map.html」などのままになるので、それらを修正する場合は、コメントの「いろいろな処理」のところでやればいいですね。

Simple HTML DOM Parserというライブラリもありますので、ぜひ使ってみてください。

投稿2014/11/11 09:25

beginnersluck

総合スコア41

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.47%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問