回答編集履歴

修正

2018/06/09 08:01

投稿

mpyw

スコア5223

answer CHANGED Viewed

@@ -2,7 +2,7 @@
 **「HTMLタグを削ぎ落とすためだけにサードパーティライブラリを使って，情報量が削ぎ落とされた中から正規表現で抜き出す」**というのはアプローチとして非常にナンセンスです。
-- HTMLを削ぎ落とすだけならPHP標準関数の `strip_tags` 関数で十分です。 `$dom->text()` を呼ぶためだけに phpQuery を入れる意味はありません。 phpQuery は本来PHPネイティブの DOMXPath のような機能を実現するためのものです。
+- `$dom->text()` を呼ぶためだけに phpQuery を入れる意味はありません。 phpQuery は本来PHPネイティブの DOMXPath のような機能を実現するためのものです。
 - （CSSクエリではなくXPathクエリを理解できるのであれば） phpQuery よりも DOMXPath のほうが速い上に余分なコードを書かなくていいので優れています。
 - HTMLのクラス属性などはスクレイピングのための貴重な情報源なのに，削ぎ落としてしまってテキストしか残っていない状態から正規表現で探し出す，というのは本末転倒です。
@@ -11,8 +11,13 @@
 ```php
 <?php
+$html = file_get_contents('https://e.his-j.com/shop/tour/voyage.aspx?portal=02A&jarea=10&tour=TI-CYC0838');
 $dom = new DOMDocument;
+@$dom->loadHTML(
-@$dom->loadHTMLFile('https://e.his-j.com/shop/tour/voyage.aspx?portal=02A&jarea=10&tour=TI-CYC0838');
+    mb_convert_encoding($html, 'HTML-ENTITIES', 'ASCII,JIS,UTF-8,eucJP-win,SJIS-win'), // 文字化け対応
+    LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD
+);
 $xpath = new DOMXPath($dom);
 $price = $xpath->evaluate('string(//*[@class="price01"])');
@@ -30,4 +35,27 @@
 // int(259800)
 ```
-でどうぞ。
+でどうぞ。
+# (追記) 正規表現で対応する場合
+```php
+<?php
+$html = file_get_contents('https://e.his-j.com/shop/tour/voyage.aspx?portal=02A&jarea=10&tour=TI-CYC0838');
+// 文字化け対応とテキスト部分のみの抽出
+$dom = new DOMDocument;
+@$dom->loadHTML(
+    mb_convert_encoding($html, 'HTML-ENTITIES', 'ASCII,JIS,UTF-8,eucJP-win,SJIS-win'),
+    LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD
+);
+$text = $dom->documentElement->nodeValue;
+if (preg_match('/([\d,]+)\s*円\s*～\s*([\d,]+)\s*円/', $text, $match)) {
+    list(, $min, $max) = array_map('intval', str_replace(',', '', $match));
+    var_dump($min, $max);
+    // int(209800)
+    // int(259800)
+}
+```

修正

2018/06/09 08:01

投稿

mpyw

スコア5223

answer CHANGED Viewed

@@ -1,7 +1,13 @@
 [PHPネイティブのDOMによるスクレイピング入門 - Qiita](https://qiita.com/mpyw/items/c0312271819baee09132)
-**「HTMLタグを削ぎ落とすためだけにサードパーティライブラリを無駄に使って，情報量が削ぎ落とされた中から正規表現で抜き出す」**というのはアプローチとして非常にナンセンスです。今回の目的であればサードパーティライブラリにも正規表現にも頼らずにDOMのまま抜き出すするほうが正解です。
+**「HTMLタグを削ぎ落とすためだけにサードパーティライブラリを使って，情報量が削ぎ落とされた中から正規表現で抜き出す」**というのはアプローチとして非常にナンセンスです。
+- HTMLを削ぎ落とすだけならPHP標準関数の `strip_tags` 関数で十分です。 `$dom->text()` を呼ぶためだけに phpQuery を入れる意味はありません。 phpQuery は本来PHPネイティブの DOMXPath のような機能を実現するためのものです。
+- （CSSクエリではなくXPathクエリを理解できるのであれば） phpQuery よりも DOMXPath のほうが速い上に余分なコードを書かなくていいので優れています。
+- HTMLのクラス属性などはスクレイピングのための貴重な情報源なのに，削ぎ落としてしまってテキストしか残っていない状態から正規表現で探し出す，というのは本末転倒です。
+今回の目的であれば `DOMXPath` が適任です。
 ```php
 <?php

修正

2018/06/09 06:22

投稿

mpyw

スコア5223

answer CHANGED Viewed

@@ -18,6 +18,10 @@
 ```php
 list($min, $max) = array_map('intval', explode('〜', str_replace(',', '', $price)));
+var_dump($min, $max);
+// int(209800)
+// int(259800)
 ```
 でどうぞ。

intで取得

2018/06/09 06:14

投稿

mpyw

スコア5223

answer CHANGED Viewed

@@ -14,4 +14,10 @@
 // string(23) "209,800円〜259,800円"
 ```
-これだけ。サードパーティライブラリは一切不要です。
+これだけ。サードパーティライブラリは一切不要です。もし価格レンジを数値で取得したいのであれば更に
+```php
+list($min, $max) = array_map('intval', explode('〜', str_replace(',', '', $price)));
+```
+でどうぞ。