PHP タグの中身を正規表現で取得したい
受付中
回答 4
投稿 ・編集
- 評価
- クリップ 2
- VIEW 11K+
たとえば以下のようなHTMLがあるとします.
<div class="item">あ</div>
<p class="item">い</p>
<p class="item special">う</p>
<div class="teratail item special">え</div>
<div>お</div>
それで,.item
の中身をPHPで取得しようとしました.
preg_match_all("/\<.*? class=[\"|\'].*?item.*?[\"|\']>(.*?)<\/.*?>/", $html, $result);
しかし,できません.(ほんとは,「あ」「い」「う」「え」がarrayとして帰ってきてほしい)
なぜでしょうか?
一生懸命初心者ながら自分で正規表現書いてみたのですが,よくわからず・・・
よろしくおねがいします.
---追記---
元になるHTMLにタブや改行が入っていました.
<div class="item">
あ
</div>
<p class="item">い</p>
<p class="item special">
う</p>
<div class="teratail item special">え
</div>
<div>
お
</div>
度々すみません,タブや改行を無視する方法はありませんでしょうか?-
気になる質問をクリップする
クリップした質問は、後からいつでもマイページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
クリップを取り消します
-
良い質問の評価を上げる
以下のような質問は評価を上げましょう
- 質問内容が明確
- 自分も答えを知りたい
- 質問者以外のユーザにも役立つ
評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。
質問の評価を上げたことを取り消します
-
評価を下げられる数の上限に達しました
評価を下げることができません
- 1日5回まで評価を下げられます
- 1日に1ユーザに対して2回まで評価を下げられます
質問の評価を下げる
teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。
- プログラミングに関係のない質問
- やってほしいことだけを記載した丸投げの質問
- 問題・課題が含まれていない質問
- 意図的に内容が抹消された質問
- 過去に投稿した質問と同じ内容の質問
- 広告と受け取られるような投稿
評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。
質問の評価を下げたことを取り消します
この機能は開放されていません
評価を下げる条件を満たしてません
質問の評価を下げる機能の利用条件
この機能を利用するためには、以下の事項を行う必要があります。
- 質問回答など一定の行動
-
メールアドレスの認証
メールアドレスの認証
-
質問評価に関するヘルプページの閲覧
質問評価に関するヘルプページの閲覧
+2
var_dump($result);
結果
array(2) {
[0]=>
array(4) {
[0]=>
string(27) "<div class="item">あ</div>"
[1]=>
string(23) "<p class="item">い</p>"
[2]=>
string(31) "<p class="item special">う</p>"
[3]=>
string(44) "<div class="teratail item special">え</div>"
}
[1]=>
array(4) {
[0]=>
string(3) "あ"
[1]=>
string(3) "い"
[2]=>
string(3) "う"
[3]=>
string(3) "え"
}
}
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
+1
$result[1] に返ってきていますよ、という結論は先の回答者の方と
同じなのですが、一点だけ、蛇足かとは思うのですが、気になった点を
回答します。
挙げられている正規表現だと、
クラスとして、item を部分文字列として含むようなクラス名を持つ要素の内容
が取得されます。たとえば、例のHTMLを以下の
ように若干修正します。
<div class="item">あ</div>
<p class="items-list">い</p>
<p class="item special">う</p>
<div class="teratail item special">え</div>
<div class="not-item">お</div>
変更点は以下の2点です。
1. 「い」を囲む<p>のclassを、items-list に変更
2. 「お」を囲む<div>に、class="not-item"を追加
上記のように修正したHTMLに対して、挙げられている正規表現
でマッチングさせ、var_dump で $result[1]を見ると、以下
のようになっているかと思います。
array(5) {
[0]=>
string(3) "あ"
[1]=>
string(3) "い"
[2]=>
string(3) "う"
[3]=>
string(3) "え"
[4]=>
string(3) "お"
}
すなわち、クラスが items-list である「い」、およびクラスが
not-item である「お」も取得されます。
ですので、ご質問の中にあった、
それで,.itemの中身をPHPで取得しようとしました.
に厳密に沿ったものにするならば、正規表現を少し手直しする必要が
ありそうです。
もちろん、他のHTMLのことは考えなくてよく、最初の例で挙げらている
HTMLの .item の中身が取れたらそれでいいという状況なら、挙げられ
ている正規表現でも目的は果たせています。
ただ、もし今回のコードが、正規表現の練習という意味合いであるならば、
挙げられている正規表現だと、
<p class="items-list">い</p>
や
<div class="not-item">お</div>
もマッチしてしまうので、
.itemの中身
だけを取ってくるものにはなっていないということを、
蛇足ながら付言させて頂きました。
蛇足と言いながらこんなに長い回答になってしまったついでに、と
言っては恐縮ですが、応用として上記の修正したHTMLで、クラス名が
items-list や not-item といったものはマッチせず、結果
として、「あ」、「う」、「え」だけを取ってくるための正規表現
を考えてみるのも練習になるかもしれません。
以上です。
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
0
preg_match_all関数ですが
4番目の引数にflagsを渡せます。
flagsを指定しない場合
デフォルトでPREG_PATTERN_ORDERが指定されます。
PREG_PATTERN_ORDERを指定すると以下の挙動になります。
PREG_PATTERN_ORDER
$matches[0] はパターン全体にマッチした文字列の配列、 $matches[1] は第 1 のキャプチャ用サブパターンにマッチした文字列の配列、 といった順番となります。
今回取得したいのはキャプチャした文字列の配列なので
$result[1]
で取得できると思います。
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
0
タブや改行を無視する方法はありませんでしょうか?
との追記があったので、これについて回答したいと思いますが、
ご質問のタイトル「タグの中身を正規表現で取得したい」からは
ちょっと離れますので、その点だけご容赦ください。
HTMLの中にタブや改行がどのように入ってきても、あるクラスを持った
要素の中にあるテキストを取り出せるプログラムを作るには、自分で
正規表現を書くという方法ではつらくなってきます。なぜかというと、
HTMLの要素の区切りにタブや改行がどのようなパターンで入ってくる
かは、無数の組み合わせがあるからです。
目的の要素からテキストを取り出すのに、自分で正規表現を書くのとは
別の選択肢として、HTMLをパース(解析)し、取り出したい要素を指定
して、それらの要素の持つテキストを集めてくるようなプログラムを
書く方法があります。そのようなプログラムを作るには、HTMLパーサー
を使うのですが、PHPのHTMLパーサーとしては、
PHP Simple HTML DOM Parser
というのが、よく知られています。(他にも、より性能が良いものがある
らしいのですが、それについてはここでは触れません。)これを使うと、
クラスに item を持っている要素のテキストを、(WEBブラウザ上に)一覧
するプログラム
・list-item-contents.php
は、たとえば以下のように書けます。
<?php
require_once 'simple_html_dom.php';
$html = file_get_html( 'input.html' );
?>
<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<title>list-item-contents.php</title>
</head>
<body>
<pre>
<?php foreach ( $html->find( '.item') as $item ) {
$text = trim($item->innertext);
echo $text . "\n";
} ?>
</pre>
</body>
</html>
<?php
$html->clear();
unset($html);
?>
上記の list-item-contents.php では、初めに
require_once 'simple_html_dom.php';
としていますが、この simple_html_dom.php は以下
http://sourceforge.net/projects/simplehtmldom/files/
からダウンロードして入手します。
また、処理の対象として読み込むHTMLファイル名を
・input.html
としています。たとえば input.html として
<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<title>questions/9375/input.html</title>
</head>
<body>
<div class="item">
あ
</div>
<p class="item">い</p>
<p class="item special">
う</p>
<div class="teratail item special">え
</div>
<div>
お
</div>
</body>
</html>
を、先の list-item-contents.php に処理させると、結果として
あ
い
う
え
と、ブラウザ上に表示されます。
input.html の要素の区切りとしてタブや改行が、どのように入っても
list-item-contents.phpを修正することなく、同じ結果が得られる
はずです。
以上、HTMLから欲しい情報を取り出すときに、自分で正規表現を書く手法
とは別の方法となりますが、参考になれば幸いです。
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
15分調べてもわからないことは、teratailで質問しよう!
- ただいまの回答率 88.11%
- 質問をまとめることで、思考を整理して素早く解決
- テンプレート機能で、簡単に質問をまとめられる