PHPでWEBスクレイピングをSimple HTML DOM Parserして行おうとしています。
対象となるHTMLファイルは下記のようになります。
lang
1<html> 2<head></head> 3 4<boby> 5<div class="content"> 6 7<div class="lead">test【test】</div> 8 9<div style="padding-left:50px;"> 10 11 12 <H3 class="link">・<a href="http://www.test.com/number/079xx.php">079xx</a> 13 14<font color="#FF0000"><b>1</b>件の</font> 15</MTComments> 16 17 18</H3> 19 20 21 <H3 class="link">・<a href="http://www.test.com/number/079xx.php">079xx</a> 22 23<font color="#999999">丸</font> 24 25</H3> 26 27 28 <H3 class="link">・<a href="http://www.test.com/number/xx.php">aaa</a> 29 30<font color="#999999">丸</font> 31 32</H3> 33 34 35 <H3 class="link">・<a href="http://www.test.com/number/07917xxx.php">07917xxx</a> 36 37<font color="#999999">丸</font> 38 39</H3> 40 41</div> 42 43<div> 44 45</body> 46</html>
HTMLファイルをWEBスクレイピングをしようとしているPHPは下記となります。
lang
1<?php 2require_once 'simple_html_dom.php'; 3 4// URLから 5$html = file_get_html( 'http://xxx/test2.html' ); 6 7// Find all links 8 foreach($html->find('div.h3') as $element) { 9 10 echo $element->href . '<br>'; 11 12 } 13 14?>
行おうとしている処理は、HTMLファイルのaタグのURLや<a href..>ここ</a>の部分を取得することをしようといています。
理屈が、まだあまりわかっていないのですが、どのようにしたら、aタグを部分の値を取得できるか教えていただけると幸いです。
よろしくお願いいたします。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2015/10/26 13:58