テキストエリアなどからURLを抽出してデータを抽出したい(PHP)
退会済みユーザー
総合スコア0

Question

PHP Simple HTML DOM Parserを使ってサイトのタイトルなどを抽出できるものを制作しているのですが、URLを取得する方法がfile_get_htmlで指定してやる方法しか分からず、何か良い方法を良い方法を教えていただきたく質問させて頂きました。

テキキストボックスにURLを入力するとタイトルなどのメタデータが表示されるというものを制作したいです。
https://tech-unlimited.com/urltitle.html　（URL to TITLE
URLからタイトルを取得します。複数一括処理もOK。）
具体的にはこのようなサイトを制作したいと考えております。

素人すぎて大変申し訳ございませんがアドバイスなどいただければ幸いです。

PHP
1<?php
2require_once 'simple_html_dom.php';
3$html = new simple_html_dom();
4$html = file_get_html("https://www.yahoo.co.jp/");
5$title = $html->find("title", 0)->innertext;
6$description = $html->find("meta[name='description']", 0)->content;
7$keywords = $html->find("meta[name='keywords']", 0)->content;
8?>
9
10<input type="text" name="title" value="<?php echo htmlspecialchars($title, ENT_QUOTES); ?>">
11<input type="text" name="description" value="<?php echo htmlspecialchars($description, ENT_QUOTES); ?>">
12<input type="text" name="keywords" value="<?php echo htmlspecialchars($keywords, ENT_QUOTES); ?>">

Accepted Answer

外部URLのHTMLを取得する方法はいくつか方法があります。`php.ini`の`allow_url_fopen`が有効になっている必要があります。

1．file_get_contents() を使用する
2．fopen(), fread(), stream_get_contents() を使用する
3．SplFileObject() を使用する


`simple_html_dom`のソースを確認したところ、`file_get_html()`の中身は`file_get_contents()` を使用してHTMLを取得しているようです。
[https://github.com/dimabdc/PHP-Fast-Simple-HTML-DOM-Parser/blob/376785f306a6012b96f1e67e8be2bc182ba09939/lib/Document.php#L126](https://github.com/dimabdc/PHP-Fast-Simple-HTML-DOM-Parser/blob/376785f306a6012b96f1e67e8be2bc182ba09939/lib/Document.php#L126)


> URLを取得する方法がfile_get_htmlで指定してやる方法しか分からず、何か良い方法を良い方法を教えていただきたく質問させて頂きました。

本件の質問の背景は、HTMLの取得時にメモリ不足が発生するということでしょうか？
ちょっとしたプログラムで、HTMLのメタ情報のみであれば`file_get_html()`でも問題ないと思います。

下記、PHPでの大容量ファイルにも対応している読込の方法の例です。
[https://www.ibm.com/developerworks/jp/opensource/library/os-php-readfiles/index.html](https://www.ibm.com/developerworks/jp/opensource/library/os-php-readfiles/index.html)

上記の他にも`php 大容量ファイル`などのキーワードで検索するとたくさんコンテンツがでてきます。

どちらにしても、HTMLをXMLパーサーで読むことになるのですべてのHTML文字列が必要なわけです。
メモリ不足で、メタタグのみが必要なのであれば適当なところで切ってしまって、小さなHTMLファイルでパースする方法もあります。

関連した質問