質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

Q&A

解決済

1回答

3373閲覧

PHPでWEBスクレイピングをSimple HTML DOM Parserして行う

gomengo

総合スコア51

PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

0グッド

1クリップ

投稿2015/10/26 12:22

PHPでWEBスクレイピングをSimple HTML DOM Parserして行おうとしています。

対象となるHTMLファイルは下記のようになります。

lang

1<html> 2<head></head> 3 4<boby> 5<div class="content"> 6 7<div class="lead">test【test】</div> 8 9<div style="padding-left:50px;"> 10 11 12 <H3 class="link">・<a href="http://www.test.com/number/079xx.php">079xx</a> 13 14<font color="#FF0000"><b>1</b>件の</font> 15</MTComments> 16 17 18</H3> 19 20 21 <H3 class="link">・<a href="http://www.test.com/number/079xx.php">079xx</a> 22 23<font color="#999999">丸</font> 24 25</H3> 26 27 28 <H3 class="link">・<a href="http://www.test.com/number/xx.php">aaa</a> 29 30<font color="#999999">丸</font> 31 32</H3> 33 34 35 <H3 class="link">・<a href="http://www.test.com/number/07917xxx.php">07917xxx</a> 36 37<font color="#999999">丸</font> 38 39</H3> 40 41</div> 42 43<div> 44 45</body> 46</html>

HTMLファイルをWEBスクレイピングをしようとしているPHPは下記となります。

lang

1<?php 2require_once 'simple_html_dom.php'; 3 4// URLから 5$html = file_get_html( 'http://xxx/test2.html' ); 6 7// Find all links 8 foreach($html->find('div.h3') as $element) { 9 10 echo $element->href . '<br>'; 11 12 } 13 14?>

行おうとしている処理は、HTMLファイルのaタグのURLや<a href..>ここ</a>の部分を取得することをしようといています。
理屈が、まだあまりわかっていないのですが、どのようにしたら、aタグを部分の値を取得できるか教えていただけると幸いです。

よろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

a要素の中身、つまり

HTML

1<a href="./">ここ</a>

上記の「ここ」という文字列を取得するなら、plaintextまたはinnertextを使います。
この2つの違いは、文字列に含まれる要素(タグ)を除去するかどうかです。

PHP

1$dom->load('<h1>タイトル<strong>強調</strong></h1>'); 2 3$dom->find('h1', 0)->plaintext; // タイトル強調 4$dom->find('h1', 0)->innertext; // タイトル<strong>強調</strong>

PHP Simple HTML DOM Parserがとっても便利 | mutter

ただ、Simple HTML DOM Parserは遅く、重く、メモリ消費も劣悪なライブラリです。
Goutteを利用したほうが絶対に良いです。

投稿2015/10/26 13:18

sounisi5011

総合スコア697

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

gomengo

2015/10/26 13:58

foreach($html->find('h3') as $element) { echo $element->innertext; } でaタグの内容が取得できました。Goutteも少しちょっと調べてみます。 ありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問