質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

89.11%

正規表現で文字列中から href="..." 部分のみ取得したい

解決済

回答 4

投稿

  • 評価
  • クリップ 0
  • VIEW 1,256

azuapricot

score 2231

いつもお世話になっております。

早速本題に入らせていただきます。

本日悩んでいるコードは以下となります。

$regex = '!href=".+"!';  //この正規表現
preg_match_all($regex, $text, $match);
var_dump($match);

正規表現を使用して、HTMLタグの中に含まれる href="" 部分のみを取得しようとしています。

取得してみた結果が以下となります。

array(1) {
  [0]=>
  array(10) {
    [0]=>
    string(99) "href="http://***.php?id=10290"><span lang="EN-US""
    [1]=>
    string(84) "href="http://***.pdf""
    [2]=>
    string(114) "href="http://***.pdf"><u><span lang="EN-US" style=""
  }
}

// *** 部分は伏せるために置き換えたものです

開始部分のhref=" は上手くとれていますが、
終了部分が上手く判定できていないようで、 style=" や、 <u> など
別のタグまで取れてしまっています。

どうにも正規表現が苦手で調べても上手く行かず...

お時間ある方いらっしゃいましたらご助力頂けますと幸いです。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 4

checkベストアンサー

+2

いちばんシンプルにやるには、!href=".+?"!として、.+最短一致させましょう。

なお、href=hogehref='piyo'href = "fuga"のような書き方もHTMLとして正当なものですので、完全に取り切るにはもう少し広げる必要があるかもしれません。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/06/21 18:17

    さいたんいっちなるものがあるのですね・・・・・
    くそう正規表現め・・・

    ありがとうございます、最短一致させたところキレイにとれました!
    一番詳しく書いてくださったのでBAとさせていただきます

    キャンセル

+1

正規表現は「最長一致」を取ります。なので

<a href="http://~"><span style="~">


のような場合は、最長一致する  href="http://~"><span style="~"  の部分を取ってしまいます。

必要なのは href="~" の部分ですが、この~の部分には " が含まれないのですから、正規表現としては
「href=" で始まり、" を含まない任意の文字列があり、" で終わる」というものにすればよいのです。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/06/21 18:17

    あ、なるほど、確かに " は含みませんね!
    正規表現むずかしいです... もっと精進します...

    ありがとうございました!

    キャンセル

+1

最短マッチ

$regex = '!href=".+?"!';

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/06/21 18:15

    さいたんまっち............

    てっきり最短を勝手にとってくれるものだと・・・・

    ありがとうございます解決です・・・!

    キャンセル

0

要件合ってますか?

preg_match_all("|<a href=\"(.*?)\".*?>(.*?)</a>|mis",$text,$matches);


$matches[1]にhrefの中身が取れます。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 89.11%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる