質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

正規表現

正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

Q&A

解決済

2回答

4237閲覧

PHPでHTML(textデータ)の特定のパターンにマッチするタグの要素を変更したい

hrk_

総合スコア14

PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

正規表現

正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

0グッド

0クリップ

投稿2017/02/05 08:34

###前提・実現したいこと
条件に一致するタグのCSSを変更したいと考えています。

  1. 変更元のHTMLは、テキストデータでメモリ上に保持しています。
  2. css要素の位置はタグの中で自由ですし、存在しない場合もあります。(下記サンプルデータ参照)

例えば『<h2>タグのうち、title要素の値が「1-」で始まるもののclass要素の値を"test2"にしたい』場合
↓次のようなデータを

php

1$test = <<<EOT 2<h2 title="0-1">aaa</h2> 3 <p>test</p> 4<h2 title="1-1" class="test">bbb</h2> 5<h2 title="1-2" class="test" aa="">ccc</h2> 6<h2 class="test" title="1-3">ddd</h2> 7<h2 class = "test" aa="" title="1-4">eee</h2> 8<h2 title="2-1">fff</h2> 9EOT;

↓このように置換したいです。

php

1$test = <<<EOT 2<h2 title="0-1">aaa</h2> 3 <p>test</p> 4<h2 title="1-1" class="test2">bbb</h2> 5<h2 title="1-2" aa="" class="test2">ccc</h2> 6<h2 title="1-3" class="test2">ddd</h2> 7<h2 aa="" title="1-4" class="test2">eee</h2> 8<h2 title="2-1">fff</h2> 9EOT; 10/* 111,2,6行目は条件に一致しないので変更無し 123,5行目は値の変更(削除して追加でも可) 134行目は追加 14*/

###試したこと
preg_replaceで強引に処理しようと試みましたが、(私のパターン作成能力が低いだけの可能性もありますが)正規表現が長く読みづらくなり、すべてのパターンで正常に動作するのかも想像が難しくなるように思えます。

まだ希望通り動いてさえいないですが...

php

1$test = <<<EOT 2<h2 title="0-1">aaa</h2> 3 <p>test</p> 4<h2 title="1-1" class="test">bbb</h2> 5<h2 title="1-2" class="test" aa="">ccc</h2> 6<h2 class="test" title="1-3">ddd</h2> 7<h2 class = "test" aa="" title="1-4">eee</h2> 8<h2 title="2-1">fff</h2> 9EOT; 10 11$replacement = '$1$3$4$5 class="test2"$7'; 12$pattern = '/(h2.*?)(\sclass\s*?=\s*?\".*?\")?(\s.+?)?(\stitle\s*?=\s*?\"1-.*?\")(.*?)?(\sclass\s*?=\s*?\".*?\")?(.*?)?(\>)/i'; 13$test = preg_replace($pattern, $replacement, $test); 14 15echo $test; 16 17/* 18<h2 title="0-1">aaa</h2> 19 <p>test</p> 20<h2 title="1-1" class="test2">bbb</h2> 21<h2 title="1-2" class="test2" aa="">ccc</h2> 22<h2 class="test" title="1-3" class="test2">ddd</h2> 23<h2 class = "test" aa="" title="1-4" class="test2">eee</h2> 24<h2 title="2-1">fff</h2> 25*/

追加で申し訳ないのですが、5(ddd),6(eee)行目の最初のclass="test"が消えないのはなぜでしょうか?

###補足
正規表現にこだわるものではありませんので、他のクラスにデータを食わせて処理したほうが簡単でしたら、それもうれしいです。ただ、PHP5.6の標準関数、標準クラスの範囲で処理可能であることが条件となります。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

DOMDocument とか。

PHP

1$html = <<<EOT 2<h2 title="0-1">aaa</h2> 3<p>test</p> 4<h2 title="1-1" class="test">bbb</h2> 5<h2 title="1-2" class="test" aa="">ccc</h2> 6<h2 class="test" title="1-3">ddd</h2> 7<h2 class = "test" aa="" title="1-4">eee</h2> 8<h2 title="2-1">fff</h2> 9EOT; 10 11$dom = new DOMDocument(); 12$dom->loadHTML( $html ); 13 14//Evaluate Anchor tag in HTML 15$xpath = new DOMXPath( $dom ); 16$targets = $xpath->evaluate( '//*[contains(@class, "test")]' ); 17 18for ( $i = 0; $i < $targets->length; $i++ ) { 19 $target = $targets->item( $i ); 20 $class_name = $target->getAttribute( 'class' ); 21 // ↓ 手抜きした。test2とかが有るとtest22に置換されるはず。 22 if ( strpos( $class_name, 'test' ) !== false ) { 23 $new_class_name = str_replace( 'test', 'test2', $class_name ); 24 //remove and set href attribute 25 $target->removeAttribute( 'class' ); 26 $target->setAttribute( 'class', $new_class_name ); 27 } 28} 29 30$body = $xpath->evaluate( 'body' ); 31 32// save html 33$html = $dom->saveHTML( $body->item( 0 ) ); 34 35echo trim( str_replace( array( '<body>', '</body>' ), '', $html ) ); 36```↓ 出力 37```HTML 38<h2 title="0-1">aaa</h2> 39<p>test</p> 40<h2 title="1-1" class="test2">bbb</h2> 41<h2 title="1-2" aa="" class="test2">ccc</h2> 42<h2 title="1-3" class="test2">ddd</h2> 43<h2 aa="" title="1-4" class="test2">eee</h2> 44<h2 title="2-1">fff</h2>

【PHPネイティブのDOMによるスクレイピング入門 - Qiita】
http://qiita.com/mpyw/items/c0312271819baee09132

【PHP: DOMElement::setAttribute - Manual】
http://php.net/manual/ja/domelement.setattribute.php

【[PHP]DOM, XPathを使ったスクレイピング(HTMLのタグ内容取得) | PHP Archive】
http://php-archive.net/php/dom-scraping/

投稿2017/02/05 10:07

kei344

総合スコア69364

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kei344

2017/02/05 10:23

あ、『<h2>タグのうち、title要素の値が「1-」で始まるもののclass要素の値を"test2"にしたい』を見落としてた。
hrk_

2017/02/05 11:04 編集

そうかDomDocumentで出来るんですね。なんだか意地でも正規表現でやろうとして頭が固くなっていたようです。コメントのほうは、いただいたソースだと「titleの値は評価せずclassのtest->test2の変換しかされない」的な意味でしょうか?そのあたりは頂いたものを元に修正できそうです。 ありがとうございます。
kei344

2017/02/05 11:41

>・・・的な意味でしょうか? そうです。 ちなみにクラスは複数付けられるものなので、単純に $target->setAttribute( 'class', 'test' ); だけしてしまうと他のクラスを削除してしまうと思います。
guest

0

DomDocumentを使ってHTMLをパースして置き換える方法でやってみました。
※ただし、もとのHTMLがhtmlタグなどを含んでいないので、最終的な出力に自動的に<html></html>などが含まれてしまいます...。実際に使うHTMLが完全なHTMLなら問題ないと思いますけど。そうじゃなくてもsaveHTML()をうまくやれば必要なものだけ出力することもできます。

php

1<?php 2$test = <<<EOT 3<h2 title="0-1">aaa</h2> 4 <p>test</p> 5<h2 title="1-1" class="test">bbb</h2> 6<h2 title="1-2" class="test" aa="">ccc</h2> 7<h2 class="test" title="1-3">ddd</h2> 8<h2 class = "test" aa="" title="1-4">eee</h2> 9<h2 title="2-1">fff</h2> 10EOT; 11 12$dom = new DOMDocument(); 13$dom->loadHTML($test); 14$xpath = new DOMXPath($dom); 15$nodes = $xpath->query('//h2[contains(@title,"1-")]'); 16foreach($nodes as $node) { 17 $node->setAttribute('class', 'test2'); 18}; 19var_dump($dom->saveHTML());

paiza.ioの動くサンプル

投稿2017/02/05 10:18

編集2017/02/05 10:21
popobot

総合スコア6586

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

hrk_

2017/02/05 11:07 編集

動くサンプルまで作成いただきありがとうございます。 何でこれに意識が向かなかったのか...目が覚めた思いです。 条件で絞り込んで合致したものを修正する部分はicchii様のコード、saveHTMLから最初の形式部分のみを抜き出す部分はkei334様のコードを参考にさせていただきました どちらの方もベストアンサーにしたいのですが、一つしか選べませんので早く投稿いただいた方の投稿のほうにさせていただきました。すみません。 とても参考になりました。ありがとうございます!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問