質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.51%

  • PHP

    20322questions

    PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

  • 正規表現

    791questions

    正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

PHPでHTML(textデータ)の特定のパターンにマッチするタグの要素を変更したい

解決済

回答 2

投稿

  • 評価
  • クリップ 0
  • VIEW 903

hrk_

score 8

前提・実現したいこと

条件に一致するタグのCSSを変更したいと考えています。

  1. 変更元のHTMLは、テキストデータでメモリ上に保持しています。
  2. css要素の位置はタグの中で自由ですし、存在しない場合もあります。(下記サンプルデータ参照)

例えば『<h2>タグのうち、title要素の値が「1-」で始まるもののclass要素の値を"test2"にしたい』場合
↓次のようなデータを

$test = <<<EOT
<h2 title="0-1">aaa</h2>
    <p>test</p>
<h2 title="1-1" class="test">bbb</h2>
<h2 title="1-2" class="test" aa="">ccc</h2>
<h2 class="test" title="1-3">ddd</h2>
<h2 class = "test" aa="" title="1-4">eee</h2>
<h2 title="2-1">fff</h2>
EOT;


↓このように置換したいです。

$test = <<<EOT
<h2 title="0-1">aaa</h2>
    <p>test</p>
<h2 title="1-1" class="test2">bbb</h2>
<h2 title="1-2" aa="" class="test2">ccc</h2>
<h2 title="1-3" class="test2">ddd</h2>
<h2 aa="" title="1-4" class="test2">eee</h2>
<h2 title="2-1">fff</h2>
EOT;
/*
1,2,6行目は条件に一致しないので変更無し
3,5行目は値の変更(削除して追加でも可)
4行目は追加
*/

試したこと

preg_replaceで強引に処理しようと試みましたが、(私のパターン作成能力が低いだけの可能性もありますが)正規表現が長く読みづらくなり、すべてのパターンで正常に動作するのかも想像が難しくなるように思えます。

まだ希望通り動いてさえいないですが...

$test = <<<EOT
<h2 title="0-1">aaa</h2>
    <p>test</p>
<h2 title="1-1" class="test">bbb</h2>
<h2 title="1-2" class="test" aa="">ccc</h2>
<h2 class="test" title="1-3">ddd</h2>
<h2 class = "test" aa="" title="1-4">eee</h2>
<h2 title="2-1">fff</h2>
EOT;

$replacement = '$1$3$4$5 class="test2"$7';
$pattern = '/(h2.*?)(\sclass\s*?=\s*?\".*?\")?(\s.+?)?(\stitle\s*?=\s*?\"1-.*?\")(.*?)?(\sclass\s*?=\s*?\".*?\")?(.*?)?(\>)/i';
$test = preg_replace($pattern, $replacement, $test);

echo $test;

/*
<h2 title="0-1">aaa</h2>
    <p>test</p>
<h2 title="1-1" class="test2">bbb</h2>
<h2 title="1-2" class="test2" aa="">ccc</h2>
<h2 class="test" title="1-3" class="test2">ddd</h2>
<h2 class = "test" aa="" title="1-4" class="test2">eee</h2>
<h2 title="2-1">fff</h2>
*/


追加で申し訳ないのですが、5(ddd),6(eee)行目の最初のclass="test"が消えないのはなぜでしょうか?

補足

正規表現にこだわるものではありませんので、他のクラスにデータを食わせて処理したほうが簡単でしたら、それもうれしいです。ただ、PHP5.6の標準関数、標準クラスの範囲で処理可能であることが条件となります。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

checkベストアンサー

+4

DOMDocument とか。

$html = <<<EOT
<h2 title="0-1">aaa</h2>
<p>test</p>
<h2 title="1-1" class="test">bbb</h2>
<h2 title="1-2" class="test" aa="">ccc</h2>
<h2 class="test" title="1-3">ddd</h2>
<h2 class = "test" aa="" title="1-4">eee</h2>
<h2 title="2-1">fff</h2>
EOT;

$dom = new DOMDocument();
$dom->loadHTML( $html );

//Evaluate Anchor tag in HTML
$xpath = new DOMXPath( $dom );
$targets = $xpath->evaluate( '//*[contains(@class, "test")]' );

for ( $i = 0; $i < $targets->length; $i++ ) {
    $target = $targets->item( $i );
    $class_name = $target->getAttribute( 'class' );
    // ↓ 手抜きした。test2とかが有るとtest22に置換されるはず。
    if ( strpos( $class_name, 'test' ) !== false ) {
        $new_class_name = str_replace( 'test', 'test2', $class_name );
        //remove and set href attribute
        $target->removeAttribute( 'class' );
        $target->setAttribute( 'class', $new_class_name );
    }
}

$body = $xpath->evaluate( 'body' );

// save html
$html = $dom->saveHTML( $body->item( 0 ) );

echo trim( str_replace( array( '<body>', '</body>' ), '', $html ) );

↓ 出力

<h2 title="0-1">aaa</h2>
<p>test</p>
<h2 title="1-1" class="test2">bbb</h2>
<h2 title="1-2" aa="" class="test2">ccc</h2>
<h2 title="1-3" class="test2">ddd</h2>
<h2 aa="" title="1-4" class="test2">eee</h2>
<h2 title="2-1">fff</h2>

【PHPネイティブのDOMによるスクレイピング入門 - Qiita】
http://qiita.com/mpyw/items/c0312271819baee09132

【PHP: DOMElement::setAttribute - Manual】
http://php.net/manual/ja/domelement.setattribute.php

【[PHP]DOM, XPathを使ったスクレイピング(HTMLのタグ内容取得) | PHP Archive】
http://php-archive.net/php/dom-scraping/

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/02/05 19:23

    あ、『<h2>タグのうち、title要素の値が「1-」で始まるもののclass要素の値を"test2"にしたい』を見落としてた。

    キャンセル

  • 2017/02/05 19:59 編集

    そうかDomDocumentで出来るんですね。なんだか意地でも正規表現でやろうとして頭が固くなっていたようです。コメントのほうは、いただいたソースだと「titleの値は評価せずclassのtest->test2の変換しかされない」的な意味でしょうか?そのあたりは頂いたものを元に修正できそうです。
    ありがとうございます。

    キャンセル

  • 2017/02/05 20:41

    >・・・的な意味でしょうか?
    そうです。

    ちなみにクラスは複数付けられるものなので、単純に
    $target->setAttribute( 'class', 'test' );
    だけしてしまうと他のクラスを削除してしまうと思います。

    キャンセル

+3

DomDocumentを使ってHTMLをパースして置き換える方法でやってみました。
※ただし、もとのHTMLがhtmlタグなどを含んでいないので、最終的な出力に自動的に<html></html>などが含まれてしまいます...。実際に使うHTMLが完全なHTMLなら問題ないと思いますけど。そうじゃなくてもsaveHTML()をうまくやれば必要なものだけ出力することもできます。

<?php
$test = <<<EOT
<h2 title="0-1">aaa</h2>
    <p>test</p>
<h2 title="1-1" class="test">bbb</h2>
<h2 title="1-2" class="test" aa="">ccc</h2>
<h2 class="test" title="1-3">ddd</h2>
<h2 class = "test" aa="" title="1-4">eee</h2>
<h2 title="2-1">fff</h2>
EOT;

$dom = new DOMDocument();
$dom->loadHTML($test);
$xpath = new DOMXPath($dom);
$nodes = $xpath->query('//h2[contains(@title,"1-")]');
foreach($nodes as $node) {
    $node->setAttribute('class', 'test2');
};
var_dump($dom->saveHTML());

paiza.ioの動くサンプル

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/02/05 20:02 編集

    動くサンプルまで作成いただきありがとうございます。
    何でこれに意識が向かなかったのか...目が覚めた思いです。
    条件で絞り込んで合致したものを修正する部分はicchii様のコード、saveHTMLから最初の形式部分のみを抜き出す部分はkei334様のコードを参考にさせていただきました
    どちらの方もベストアンサーにしたいのですが、一つしか選べませんので早く投稿いただいた方の投稿のほうにさせていただきました。すみません。
    とても参考になりました。ありがとうございます!

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.51%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る

  • PHP

    20322questions

    PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

  • 正規表現

    791questions

    正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。