質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.11%

PHP タグの中身を正規表現で取得したい

受付中

回答 4

投稿 ・編集

  • 評価
  • クリップ 2
  • VIEW 11K+

score 211

こんにちは.
たとえば以下のようなHTMLがあるとします.
<div class="item">あ</div>
<p class="item">い</p>
<p class="item special">う</p>
<div class="teratail item special">え</div>
<div>お</div>
それで,.itemの中身をPHPで取得しようとしました.
preg_match_all("/\<.*? class=[\"|\'].*?item.*?[\"|\']>(.*?)<\/.*?>/", $html, $result);
しかし,できません.(ほんとは,「あ」「い」「う」「え」がarrayとして帰ってきてほしい)
なぜでしょうか?
一生懸命初心者ながら自分で正規表現書いてみたのですが,よくわからず・・・
よろしくおねがいします.


---追記---
元になるHTMLにタブや改行が入っていました.
<div class="item">
  あ
</div>

<p class="item">い</p>

<p class="item special">
  う</p>

<div class="teratail item special">え
</div>

<div>
お
</div>
度々すみません,タブや改行を無視する方法はありませんでしょうか?
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 4

+2

返ってきているようですよ。
var_dump($result);
結果
array(2) {
  [0]=>
  array(4) {
    [0]=>
    string(27) "<div class="item">あ</div>"
    [1]=>
    string(23) "<p class="item">い</p>"
    [2]=>
    string(31) "<p class="item special">う</p>"
    [3]=>
    string(44) "<div class="teratail item special">え</div>"
  }
  [1]=>
  array(4) {
    [0]=>
    string(3) "あ"
    [1]=>
    string(3) "い"
    [2]=>
    string(3) "う"
    [3]=>
    string(3) "え"
  }
}

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

+1

こんにちは。

 $result[1] に返ってきていますよ、という結論は先の回答者の方と
同じなのですが、一点だけ、蛇足かとは思うのですが、気になった点を
回答します。

 挙げられている正規表現だと、

 クラスとして、item を部分文字列として含むようなクラス名を持つ要素の内容

が取得されます。たとえば、例のHTMLを以下の
ように若干修正します。

<div class="item">あ</div>
<p class="items-list">い</p>
<p class="item special">う</p>
<div class="teratail item special">え</div>
<div class="not-item">お</div>
変更点は以下の2点です。

1. 「い」を囲む<p>のclassを、items-list に変更
2. 「お」を囲む<div>に、class="not-item"を追加

 上記のように修正したHTMLに対して、挙げられている正規表現
でマッチングさせ、var_dump で $result[1]を見ると、以下
のようになっているかと思います。

array(5) {
    [0]=>
    string(3) "あ"
    [1]=>
    string(3) "い"
    [2]=>
    string(3) "う"
    [3]=>
    string(3) "え"
    [4]=>
    string(3) "お"
  }
すなわち、クラスが items-list である「い」、およびクラスが 
not-item である「お」も取得されます。
ですので、ご質問の中にあった、

それで,.itemの中身をPHPで取得しようとしました.

に厳密に沿ったものにするならば、正規表現を少し手直しする必要が
ありそうです。

 もちろん、他のHTMLのことは考えなくてよく、最初の例で挙げらている
HTMLの .item の中身が取れたらそれでいいという状況なら、挙げられ
ている正規表現でも目的は果たせています。
 ただ、もし今回のコードが、正規表現の練習という意味合いであるならば、
挙げられている正規表現だと、

<p class="items-list">い</p>

<div class="not-item">お</div>
もマッチしてしまうので、

.itemの中身

だけを取ってくるものにはなっていないということを、
蛇足ながら付言させて頂きました。

蛇足と言いながらこんなに長い回答になってしまったついでに、と
言っては恐縮ですが、応用として上記の修正したHTMLで、クラス名が
items-list や not-item といったものはマッチせず、結果
として、「あ」、「う」、「え」だけを取ってくるための正規表現
を考えてみるのも練習になるかもしれません。

以上です。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

0

こんにちは
preg_match_all関数ですが
4番目の引数にflagsを渡せます。

flagsを指定しない場合
デフォルトでPREG_PATTERN_ORDERが指定されます。
PREG_PATTERN_ORDERを指定すると以下の挙動になります。
PREG_PATTERN_ORDER
$matches[0] はパターン全体にマッチした文字列の配列、 $matches[1] は第 1 のキャプチャ用サブパターンにマッチした文字列の配列、 といった順番となります。
今回取得したいのはキャプチャした文字列の配列なので
$result[1]
で取得できると思います。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

0

こんにちは。2回目の回答になります。

タブや改行を無視する方法はありませんでしょうか?

との追記があったので、これについて回答したいと思いますが、
ご質問のタイトル「タグの中身を正規表現で取得したい」からは
ちょっと離れますので、その点だけご容赦ください。

 HTMLの中にタブや改行がどのように入ってきても、あるクラスを持った
要素の中にあるテキストを取り出せるプログラムを作るには、自分で
正規表現を書くという方法ではつらくなってきます。なぜかというと、
HTMLの要素の区切りにタブや改行がどのようなパターンで入ってくる
かは、無数の組み合わせがあるからです。
 目的の要素からテキストを取り出すのに、自分で正規表現を書くのとは
別の選択肢として、HTMLをパース(解析)し、取り出したい要素を指定
して、それらの要素の持つテキストを集めてくるようなプログラムを
書く方法があります。そのようなプログラムを作るには、HTMLパーサー
を使うのですが、PHPのHTMLパーサーとしては、

PHP Simple HTML DOM Parser

というのが、よく知られています。(他にも、より性能が良いものがある
らしいのですが、それについてはここでは触れません。)これを使うと、
クラスに item を持っている要素のテキストを、(WEBブラウザ上に)一覧
するプログラム 

・list-item-contents.php 

は、たとえば以下のように書けます。

<?php
    require_once 'simple_html_dom.php';

    $html = file_get_html( 'input.html' );
?>
<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<title>list-item-contents.php</title>
</head>
<body>
<pre>
<?php foreach ( $html->find( '.item') as $item ) {
    $text = trim($item->innertext);
    echo $text . "\n";
} ?>
</pre>
</body>
</html>
<?php 
    $html->clear();  
    unset($html);  
?>
上記の list-item-contents.php では、初めに
  require_once 'simple_html_dom.php';
としていますが、この simple_html_dom.php は以下

http://sourceforge.net/projects/simplehtmldom/files/

からダウンロードして入手します。
また、処理の対象として読み込むHTMLファイル名を

・input.html 

としています。たとえば input.html として
<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<title>questions/9375/input.html</title>
</head>
<body>
<div class="item">
  あ
</div>

<p class="item">い</p>

<p class="item special">
  う</p>

<div class="teratail item special">え
</div>

<div>
お
</div>
</body>
</html>
を、先の list-item-contents.php に処理させると、結果として
あ
い
う
え
と、ブラウザ上に表示されます。

input.html の要素の区切りとしてタブや改行が、どのように入っても
list-item-contents.phpを修正することなく、同じ結果が得られる
はずです。

以上、HTMLから欲しい情報を取り出すときに、自分で正規表現を書く手法
とは別の方法となりますが、参考になれば幸いです。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.11%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る