質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.47%

  • PHP

    20809questions

    PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

  • 正規表現

    811questions

    正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

正規表現 HTMLのIMGタグ以外のすべてを削除する方法

受付中

回答 3

投稿 編集

  • 評価
  • クリップ 1
  • VIEW 488

annchan25

score 2

 

この度、WordpressのPHPファイルにて、正規表現を使って、<img>タグ以外のタグとテキストを削除したいと思うのですが、どうもうまくいきません。
<img>以外を削除してもタグは消せてもテキストが残ったり、そもそもタグが消えなかったりしてしまいます。

もうお手上げの状態で、何かヒントをいただけないでしょうか。
よろしくお願いします。

 発生している問題・エラーメッセージ

正規表現でIMGタグ以外を削除することができない

 該当のソースコード

<(?!img)(.|\s)*?> テキストが残る
^(?!.*img).*$ 消えない

変更前
<div class="title">タイトル</div>
<div class="text">
<p><strong>1</strong><label class="name">名前</label></p>
<div class="image"><img class="img" src="example.com/a.jpg"/></div>
</div>

変更したい形
<img class="img" src="example.com/a.jpg"/>

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • mts10806

    2018/04/23 06:46

    どのような文字列に対してどのようになるのが目標 というのをサンプルで提示していただけますか?

    キャンセル

  • annchan25

    2018/04/23 07:35

    説明が不十分でした。申し訳ございません。追記しました。

    キャンセル

  • annchan25

    2018/04/23 22:41

    回答いただき、本当にありがとうございます。回答をもとにプラグインを作成したのですが、そこでも躓いてしまいました。同じ質問に追記するのはややこしいので、新たに質問させていただきます。解決したあとにこの質問を解決にしたいと思います。よろしくお願いいたします。

    キャンセル

  • mts10806

    2018/04/24 06:56 編集

    まだ「受付中」となっています。自身で回答を書かれて自己解決とするか、既についている回答にベストアンサーをつけて「解決済み」としてください。前の質問が残ったまま次の質問を同件で立てるのはあまり好ましくありません。もしそうしないのであればこちらの質問に追記して解決まで対応していくべきと思います。

    キャンセル

回答 3

+4

これでどうだろう。

$allowed_html = array(
    'img' => array(
        'alt'         => true,
        'height'     => true,
        'id'         => true,
        'referrerpolicy' => true,
        'sizes'         => true,
        'src'         => true,
        'srcset'     => true,
        'style'         => true,
        'width'         => true,
    )
);
echo wp_kses( $text, $allowed_html );

【wp_kses() | Function | WordPress Developer Resources】
https://developer.wordpress.org/reference/functions/wp_kses/

【WordPressでサイト作成する際に最低限必要なこと - Qiita】
https://qiita.com/miosee/items/dbecefb1b9028a52db64#htmlタグを除去-wp_kses関数

【複雑な WordPress のエスケープ関数を整理してみる – ミルログ】
https://www.mirucon.com/2017/07/11/the-complex-wordpress-escaping/

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/04/23 22:09

    回答ありがとうございます。このような方法もあるのですね。Wordpressですのでこの方法が使えそうです。今のところ目的を達成することはできていませんが、もう少し調べてみたいと思います。

    キャンセル

  • 2018/04/28 09:55

    希望する動作をするフィルターを見つけ、IMGタグ以外を削除することに成功したのですが、タグ以外のテキストが残っているようです。こちらのテキストも削除することはできないでしょうか?

    キャンセル

+3

正規表現でIMGタグ以外を削除することができない

「<img>だけを抽出する」に要件を変えると、シンプルに実装出来そうです。
http://php.net/manual/ja/function.preg-match-all.php

以下、未検証。

'/<img\s[^>]*>/i'


上記正規表現は属性値で > が正しくエスケープされている前提。エスケープされていないなら、属性値を消費する為の正規表現が必要。


どうしても、削除したいとしたら、

  • 「img」と「img以外」を消費して、「img」だけを返す

のように考え方を変える必要があると思います。
<img> は空要素なので、タグの対応関係を考える必要がありません。

Re: annchan25 さん

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/04/23 10:46

    回答ありがとうございます。やはり、IMGだけとなると抽出するほうがよさそうですね。抽出する方法でうまくいくよう試していきたいと思います。

    キャンセル

+3

要件と違ったら申し訳ないのですが、
私もブラックリスト方式ではなくホワイトリスト方式の方が良いと思います。
対象が「imgタグのみ」と限定的であればなおさら、「そこだけ取り出す」方が考え方は楽です。
※もちろんそういう課題に取り組んでいるのであれば仕方ないですが、その場合は経緯も明記してください

ということで、私の思うところでザッと考えてみたのですが、
対象がhtml限定であればDOMDocumentが使えると思います。

$dom = new DOMDocument;

$html = <<<EOF
<div class="title">タイトル</div>
<div class="text">
<p><strong>1</strong><label class="name">名前</label></p>
<div class="image"><img class="img" src="example.com/a.jpg"/></div>
</div>
EOF;

$dom->loadHTML(mb_convert_encoding($html,'HTML-ENTITIES', 'UTF-8'));
$getimg = $dom->getElementsByTagName('img');
foreach($getimg as $img){
    echo $dom->saveHTML($img);
}

Wordpressで、とのことなのでもしかしたらもっと簡単にできる仕組みがあるかもしれません。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/04/23 11:15

    回答ありがとうございます。確かに、削除するより抽出するほうがうまくいきそうですね。
    なぜ削除したかったかというと、私の目的を果たせそうな方法を探していたところ、こちら(https://wordpress.stackexchange.com/questions/195856/adding-regex-filter-to-feedwordpress)の質問を見つけ、利用できないかと考えていたためです。

    (目的というのは、別サーバーにある複数のサイト(WordPress)からフィードを発信し、メインのWordPressサイトにインストールしたFeedWordPressプラグインで、別サーバーの記事を取得しひとつのサイトにまとめたいというもので、その際テキストなどは除外して画像だけにしたいのです。
    わざわざ別サーバーに画像や記事を保存するのは、そのサーバーが容量無制限のためです。)

    キャンセル

  • 2018/04/23 11:18

    なるほど、色々とやりたいことがあるのですね。
    その部分が質問にあると、よりやりたいこと・目的に向かった解決方法が提示されやすくなります。
    今のところWordPressの機能を使っているkei344さんの回答が近そうですね。

    キャンセル

  • 2018/04/23 12:18

    「別サーバーの記事を取得し」はスクレイピング技術になるので、
    下記の記事を参考にしてみては?(私は1番目の記事を参考に今回回答しました)
    https://qiita.com/mpyw/items/c0312271819baee09132
    https://qiita.com/zaburo/items/465ca691aebad2b5691e
    https://qiita.com/dia/items/3cf963fa89b08b87e8ef

    キャンセル

  • 2018/04/23 22:08

    スクレイピング技術というのですね。これについてもかなり調べたのですが、全然思い通りにいかず、最終的にこのような方法に至ったのですが、以降のサイト制作にはスクレイピング技術を学んで取り入れてみたいと思います。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.47%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る

  • PHP

    20809questions

    PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

  • 正規表現

    811questions

    正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。