質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

87.37%

【正規表現】○○で囲まれてない文字列を置換

解決済

回答 3

投稿

  • 評価
  • クリップ 0
  • VIEW 2,394

score 17

お世話になっています。

正規表現で質問です。
掲題の通りですが、特定の文字列に囲まれていない文字列を検索して、置換したいのですが、そのやり方がわからず、
アドバイスいただければと思い質問させていただきます。

やりたいこととしては、

<p>hoge<a href="">hoge</a></p>


こんなHTMLに対して、
aタグで囲まれていない"hoge"を"fuga"に置換したいです。

<p>hoge<a href="">hoge</a></p><p>fuga<a href="">hoge</a></p>


のような感じです。

よろしくお願いいたします。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • maisumakun

    2019/10/07 15:33

    たとえば、「<p>hogepiyo<a>hogepiyofuga</a>hoge</p>」のようにあった場合、どこまで置換すればいいでしょうか。

    キャンセル

  • pipo

    2019/10/07 15:35

    ありがとうございます!

    <a></a>で囲まれている箇所以外は全て置換したいです

    キャンセル

  • Zuishin

    2019/10/07 15:59

    <ahoge ahoge="ahoge">ahoge<a href="ahoge">ahoge</a></ahoge>

    これを置換するとどうなりますか?
    また言語は何ですか?

    キャンセル

  • pipo

    2019/10/07 16:03 編集

    ありがとうございます!

    <ahoge ahoge="ahoge">ahoge<a href="ahoge">ahoge</a></ahoge>
    の場合だと、
    <ahoge ahoge="ahoge">afuga<a href="ahoge">ahoge</a></ahoge>
    になってもらいたいです
    言語はjsで実装予定です

    キャンセル

回答 3

checkベストアンサー

+2

出来ない方向でまとまっているようですが、技術的には可能です。

消費する

以下、モバイル端末で未検証コードを書いているので、叩き台にして下さい。

string.replace(/(<a\s[^>]*>[^<]*(?:<(?!\/a>)[^>]*>[^<]*)*<\/a)(?=>)|(>[^<]*)(?=<|$)/g, (match,anchor,text) => anchor ? anchor : text.replace(/hoge/g, 'fuga'));

ご覧の通り、正規表現が複雑化するので、正規表現に不慣れであれば、お勧めはしません。

先読み

「終了タグが省略されないこと」が保証されているなら、
(上に同じく未検証)

string.replace(/>([^<]*)(?=(?:<(?!(?:\/a>|a[\s>])[^>]*>[^<]*)*(?:<a[\s>]|$))/g, (match,text) => '>' + text.replace(/hoge/g, 'fuga'));

XPath

既存DOMからテキストノード値を書き換えるなら、私はXPathでテキストノードを得て、置換させます。
https://teratail.com/questions/31198

Re: pipo さん

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/10/07 19:01 編集

    think49さん

    すごい!!
    できました!!
    僕の知識ではちょっと何をやっているのか理解できませんが、
    やっぱり正規表現で対応できるのであれば正規表現でやってしまいたいので参考にさせていただきます!!

    本当に助かりました!
    ありがとうございます!!

    キャンセル

+2

自然言語で考える限り、行けそうですが、ちょっと考えてほしいんですけれど、

aaabbbccc

aaaとcccで囲まれている文字列は、bbbということはできますが、

aaaとcccで囲まれて"いない"文字列は、もうね、これ、この文字列そのものにマッチしてしまう。
なんせ、行頭や行末でも、マッチするわけですから。

ほかにも、aaとccで囲まれた文字列も、aaaとcccで囲まれて"いない"なので、abbbcもマッチするでしょう?

というわけで、愚直に実装するのがよろしいかと。
ベン図でイメージしてほしいんですけれど、ある条件で特定の範囲を絞りこむことはできても、
その反転が、必ずしも、限られた条件を示すとは言えない、好例です。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/10/07 16:19

    なるほど、確かにベン図でイメージすると分かりやすいかもしれないですね。
    そもそも正規表現の知識が乏しく、できるできないの判断がつかずにいました。

    できそうと思って色々試行錯誤していましたが、
    はっきりお答えいただいたおかげであまり時間を無駄にせずにすみました!
    普通に実装してみます回答ありがとうございました!

    キャンセル

  • 2019/10/08 08:27 編集

    To: aka-persona さん
    > aaaとcccで囲まれて"いない"文字列は、もうね、これ、この文字列そのものにマッチしてしまう。

    これはどういう意味なのでしょうか。
    「囲まれていない文字列」を愚直に実装するなら、「aaaが先行せず、cccが後続しない状態」にします。
    後読みが実装を選ぶので、私の回答では<a>を消費してそれを保証しましたが、| を使わず、単体でそれを実装するには前後の文字列チェックが必須です。

    キャンセル

  • 2019/10/08 08:54

    > 「aaaが先行せず、cccが後続しない状態」にします。

    全てにおいて、一対の対応関係が保証されている場合は、上記いずれか一つが成立すれば良かったですね。

    キャンセル

  • 2019/10/08 10:03 編集

    もう、技術的には解決しているので、全く出る幕はないのですが、"特定の文字列に囲まれていない文字列"というのは、解釈の余地がある表現で、パッと思いつく範囲で
    ・"特定の文字列"以外の(文字列の開始や終端を含む)何でも囲まれていればOK
    ・"特定の文字列でないの何らかの文字列"に囲まれていればOK
    これらのどちらかが不定です。
    私の知りうる限り、正規表現エンジンは基本的に最大一致するはずですから、[^(aaa.*ccc)]に対して、aaabbbcccを評価してしまうと、文字列の開始や、文字列の終了は、aaaでもcccでもないので、マッチしてしまうように思えます(間違っていたらすいません)。
    翻って、現実的な実装では、think49さんのように、後者の、文脈に応じた実装をする必要があるということが、整理したかったわけです。

    キャンセル

+2

正規表現は、本質的にHTMLタグのような、ネストしうる構造に対応しきれません(特に、JavaScriptの正規表現は再帰的な拡張もないので難しいです)。

正規表現ではなくDOMで処理したほうがいいのではないかと思います。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/10/07 16:22

    なるほどです。
    正規表現で対応できるところは正規表現でやりたいなーという思いから
    色々やってみていましたが、できそーでもできない、、
    と時間を喰ってしまっていました。

    回答ありがとうございました!
    jsで実装することにします!

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 87.37%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る