回答率: 85.30%

質問するログイン新規登録

トップ PHPに関する質問 [正規表現]英語の文章だけを排除したい

編集履歴

回答編集履歴

4

修正

2016/09/20 13:12

投稿

スコア6588

answer CHANGED Viewed

@@ -13,10 +13,10 @@
 $divs = $xpath->query('//div[@class="text"]'); // classがtextの<div>を探す
 foreach($divs as $div) { // 見つかった<div>が配列になっているのでループで回す
 	$en_divs = $xpath->query('div[@class="en_text"]', $div); // そのdivからclassがen_textの<div>を探す
-	if(!empty($en_divs[0])) {
+	if($en_divs->length) { // divがあったら
-		$div->removeChild($en_divs[0]); // en_textのdivを消す
+		$div->removeChild($en_divs->item(0)); // en_textのdivを消す
 	}
-    echo $div->nodeValue ."\n"; // <div>内の値をechoで出力する
+	echo $div->nodeValue ."\n"; // <div>内の値をechoで出力する
 }
 ```

3

さらに修正

2016/09/20 13:12

投稿

スコア6588

answer CHANGED Viewed

@@ -13,7 +13,7 @@
 $divs = $xpath->query('//div[@class="text"]'); // classがtextの<div>を探す
 foreach($divs as $div) { // 見つかった<div>が配列になっているのでループで回す
 	$en_divs = $xpath->query('div[@class="en_text"]', $div); // そのdivからclassがen_textの<div>を探す
-	if($en_divs->length) { // divがあったら
+	if(!empty($en_divs[0])) {
 		$div->removeChild($en_divs[0]); // en_textのdivを消す
 	}
     echo $div->nodeValue ."\n"; // <div>内の値をechoで出力する

2

凡ミス修正

2016/09/20 13:05

投稿

スコア6588

answer CHANGED Viewed

@@ -17,6 +17,7 @@
 		$div->removeChild($en_divs[0]); // en_textのdivを消す
 	}
     echo $div->nodeValue ."\n"; // <div>内の値をechoで出力する
+}
 ```
 DomDocumentを使うと、HTMLを構造解析して、XPathでほしい情報を抽出できます。詳しくは、[ここ](http://php-archive.net/php/dom-scraping/)を読んで下さい。多くの場合、正規表現より正確かつ簡単に抽出できます。

1

修正

2016/09/20 13:00

投稿

スコア6588

answer CHANGED Viewed

@@ -10,10 +10,13 @@
 $dom = new DomDocument; // DomDocumentオブジェクトを作る
 @$dom->loadHTML($html); // ターゲットのHTMLをDomDocumentに読み込ませる
 $xpath = new DOMXPath($dom); // XPathオブジェクトを作る
-$divs = $xpath->query('//div[@class="en_text"]'); // classがen_textの<div>を探す
+$divs = $xpath->query('//div[@class="text"]'); // classがtextの<div>を探す
 foreach($divs as $div) { // 見つかった<div>が配列になっているのでループで回す
+	$en_divs = $xpath->query('div[@class="en_text"]', $div); // そのdivからclassがen_textの<div>を探す
+	if($en_divs->length) { // divがあったら
+		$div->removeChild($en_divs[0]); // en_textのdivを消す
+	}
-	echo $div->nodeValue ."\n"; // <div>内の値をechoで出力する
+    echo $div->nodeValue ."\n"; // <div>内の値をechoで出力する
-}
 ```
 DomDocumentを使うと、HTMLを構造解析して、XPathでほしい情報を抽出できます。詳しくは、[ここ](http://php-archive.net/php/dom-scraping/)を読んで下さい。多くの場合、正規表現より正確かつ簡単に抽出できます。