[正規表現]英語の文章だけを排除したい

Question

皆様、平素よりお世話になっております。「

と
に囲われた英語の文章」だけを除外して表示したいのですが、以下のように自分なりのコードを書いてみたのですが、どうしても実現できません。 ```php ini_set('display_errors',1); header("Content-Type: text/html; charset=UTF-8");//文字化け防止 require_once('phpQuery.php'); //phpQueryというモジュールを使う // HTMLデータを取得する $html = file_get_contents('http://www.meigensyu.com/quotations/index/page1.html'); //ターゲットのURL // HTMLをオブジェクトとして扱う $doc = phpQuery::newDocument($html); $messages= $doc['div.text']; //これだけでトリミングしたい要素が

付きで代入される preg_match_all('|

(.*)(

)|', $messages, $match); //$matchは

だけのきれいな配列になる。 /*$matchの「$match[0]にはHTML要素付き」、「$match[1]には平文」が入る。平文の文章を抽出したい場合は$match[1][0]からのスタートになる*/ $singulerExpression = '

'; //名言の入っている要素を指定 $singulerExpression_noEng ='|

(.*)(
)|'; for($i=0;$i'; } } ``` 出力部分を以下のようにしても同じ出力結果でした。 ```php for($i=0;$i.*
|', '', $match[1][$i]).'
'; } ``` 上記の出力結果 ```html 人間はひとくきの葦にすぎない。自然の中で最も弱いものである。だが、それは考える葦である。

Human being is a reed of one stalk. It is the weakest existence naturally. However , it is a thinking reed .
その日その日が一年中の最善の日である。
チャンスは貯蓄できない。
希望さえあればどんな所にでもたどりつけると決心している。
死者にたいする最高の手向けは、悲しみではなく感謝だ。
人生は道路のようなものだ。一番の近道は、たいてい一番悪い道だ。
世の中は、君の理解する以上に栄光に満ちている。
人付き合いがうまいというのは、人を許せるということだ。
生きるとは呼吸することではない。行動することだ。
人生は学校である。そこでは幸福より不幸の方が良い教師である。
若い女は美しい。しかし、老いた女はもっと美しい。
今日という日は、残りの人生の最初の一日。
卵を割らなければ、オムレツは作れない。

You can't make omelet without breaking eggs.
至上の処世術は、妥協することなく適応することである。
人間、志を立てるのに遅すぎるということはない。
太陽が輝くかぎり、希望もまた輝く。
行動は必ずしも幸福をもたらさないかも知れないが、行動のない所に、幸福は、生まれない。
成し遂げんとした志をただ一回の敗北によって捨ててはいけない。
``` 私の正規表現の書き方か、ロジックに間違えがあると思います。どうかアドバイスやご指摘のほどをお願いいたします。以上です。よろしくお願いします。

Accepted Answer

DomDocumentとXPathを使って抽出してみました。コメントを書いてあるので、参考にしてください。 ```php loadHTML($html); // ターゲットのHTMLをDomDocumentに読み込ませる $xpath = new DOMXPath($dom); // XPathオブジェクトを作る $divs = $xpath->query('//div[@class="text"]'); // classがtextの

を探す foreach($divs as $div) { // 見つかった

が配列になっているのでループで回す $en_divs = $xpath->query('div[@class="en_text"]', $div); // そのdivからclassがen_textの

を探す if($en_divs->length) { // divがあったら $div->removeChild($en_divs->item(0)); // en_textのdivを消す } echo $div->nodeValue ." "; //

内の値をechoで出力する } ``` DomDocumentを使うと、HTMLを構造解析して、XPathでほしい情報を抽出できます。詳しくは、[ここ](http://php-archive.net/php/dom-scraping/)を読んで下さい。多くの場合、正規表現より正確かつ簡単に抽出できます。 phpQueryは、内部的にはDomDocumentとXPathを使ったスクレイピングライブラリですが、DomDocumentに比べて情報も少ないので、まずはPHP標準機能であるDomDocumentを素直に使うことをおすすめします。

Answer

英語だけの文書ってstrlenとmb_strlenが一緒だって判断していいなら例えばこう ```PHP $str=<<hoge hoge hoge
hoge hoge

hoge ほげ hoge
hoge hoge

ほげほげ
hoge hoge

hoge hoge hoge
hoge hoge

eof; $pattern="|(?<=

).+(?=
)|"; $replacement=function($a){return strlen($a[0])==mb_strlen($a[0])?"":$a[0];}; $str=preg_replace_callback($pattern,$replacement,$str); print nl2br(htmlspecialchars($str)); ```

関連した質問