質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.45%

  • PHP

    24625questions

    PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

  • 正規表現

    947questions

    正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

正規表現で部分文字列を取り出す

受付中

回答 2

投稿

  • 評価
  • クリップ 1
  • VIEW 131

ssssskkkkk

score 8

phpで次の文字列から class="test" id="test"を個別に取り出したいと考えています。

$text = "<p class=\"test\" id=\"test\">";


そこで以下のコードを試してみましたが、

<?php
$text = "<p class=\"test\" id=\"test\">";
$pattern = "/<p( +.*=(\".*\"))*>/";
$matches = [];
preg_match($pattern, $text, $matches);
var_dump($matches);
?>


結果は

array(3) {
  [0]=>
  string(26) "<p class="test" id="test">"
  [1]=>
  string(23) " class="test" id="test""
  [2]=>
  string(6) ""test""
}


となってしまいました。
上記のような結果ではなく、

array(3) {
  [0]=>
  string(26) "<p class="test" id="test">"
  [1]=>
  string(13) " class="test""
  [2]=>
  string(10) " id="test""
}


となることを期待しています。

今回用いたパターンは

$pattern = "/<p( +.*=(\".*\"))*>/";


ですが、どのようにすれば期待した結果になるでしょうか。
よろしくお願いいたします。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • papinianus

    2019/06/11 07:36

    classやidは固定ですか?htmlの開始タグのみが渡されるのは固定ですか?

    キャンセル

  • ssssskkkkk

    2019/06/11 19:00

    classやidは固定ではなく様々な属性に対応させたいと考えています。
    今回は属性を取り出せれば良いので終了タグは考慮していません。

    キャンセル

回答 2

+3

HTML要素の属性などを抜くときには正規表現よりDOM処理の方が楽です

$text = "<p class=  \"testhoge testfuga\" id='testpiyo' data-test='class=\"nisemono\"'>p</p>";
$doc=new DOMDocument();
$doc->loadHTML($text);
$node = $doc->getElementsByTagName("p")[0];
print "class:".$node->getAttribute("class")."<br>";
print "id:".$node->getAttribute("id")."<br>";
  • エンクロージャーが不定
  • 余分な空白文字を気にする必要がある
  • ニセデータが混ざる可能性がある

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/06/11 18:58

    ありがとうございます。
    教えていただいた方法を試してみたところ、属性を抜き出すことができましたが、今回は正規表現で実装したいので、引き続き正規表現での取り出し方を探していきたいと思います。

    キャンセル

  • 2019/06/12 10:53

    正規表現はしょせん文字列のマッチングでしか無いので
    HTML要素における属性の解釈が中途半端にしかできません
    前述したような特殊な例が含まれると急激に難易度があがります。
    まぁ向学のためやってみたいなら止めないですが
    無理なものは無理だと認識しておいたほうがよいですよ

    キャンセル

  • 2019/06/12 19:02

    もう少しやってみて無理そうであれば諦めます。
    ありがとうございます。

    キャンセル

+2

正規表現はそのまま使用すると最長パターンを探します。
最短パターンにマッチングさせると良いです。

検証用サイト
regexper
regex101

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/06/10 19:52

    最短パターンにマッチさせようとして最初に思いつくのが
    $pattern = "/<p( +.*=(\".*?\"))*>/";  (分かりづらいですが、\".*\" -> \".*?\" に変更しています)
    なのですが、これでも結果は変わりませんでした。
    どのように記述するとうまく最短パターンにマッチさせられるのでしょうか。

    キャンセル

  • 2019/06/10 19:55

    検証用のサイトを追記しました。

    キャンセル

  • 2019/06/10 19:56

    試してみます!ありがとうございます。

    キャンセル

  • 2019/06/10 20:02

    いろいろ試した(regex101 のデバッグとか)後で
    https://qiita.com/anqooqie/items/191ad215e93237c77811
    を見ると良いです。

    キャンセル

  • 2019/06/10 22:21

    ありがとうございます。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.45%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

同じタグがついた質問を見る

  • PHP

    24625questions

    PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

  • 正規表現

    947questions

    正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。