質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.92%

正規表現で任意の位置以降を削除するには

解決済

回答 2

投稿 編集

  • 評価
  • クリップ 1
  • VIEW 1,954

MISOSHIRU

score 29

前提・実現したいこと

Rubyで正規表現を使い、任意のhtml文字列に掛ける正規表現処理を作っています。

質問(作りたい処理)

真ん中くらいのhtmlタグ以降の文字列を削除するにはどうしたら良いでしょうか?
以下、例1,2のようなあらゆるhtml文字列に対応したいです。

例1:
<p>~~~</p>
<h2>~~</h2>
<p class="aaa">~~~</p>
~~~以降は削除~~~
<p>~~~</p>
<a>~~~</a>

例2:
<p style="text-align: left;"><a href="http://naiken.nurve.jp/" target="_blank">VR内見公式サイト</a></p>
<p style="text-align: left;">
 <a href="http://hoge.jpg" rel="attachment wp-att-96738>
 <img class="hoge" src="http://hoge.jp/hoge.jpg" alt="sub" width="000" height="000"/>
 </a>
</p>
~~~以降を削除~~~
<p style="text-align: left;">Hello</p>
<h2 style="text-align: left;">Hello</h2>

該当のhtml文字列

content = '
<h2>aaaについて</h2>
<p class="sssssss"><a href="http://~~~~~~~~~"><img class="~~~" /></a></p>
<p>~~~~~~~~~~~~~~~~~~~~</p>
<p>aaaaaaaaaaaaaaaaaaaa</p>
<h3><i class="~~~~~~~~~~"></i><span>hoge</span></h3>
<p><iframe width="000" height="000" src="https://www.youtube.com/embed/aaaaaa></iframe></p>
<h2>aaaaaaa</h2>
<p>~~~~~~~~~~~~~~~~~~~</p>
'

試したこと

htmlタグを取得する正規表現は以下のように作ってみました。
間違っていたらすみません。

/<(.*)\s*.*>.*<\/\1>/

gsubメソッドで第2引数に空欄を指定することで削除ができました。

content.gsub(/正規表現/, "")
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • otn

    2017/04/25 16:25 編集

    「真ん中くらい」とは?? 2つ目のPタグの後と言う事??

    キャンセル

  • MISOSHIRU

    2017/04/25 16:27

    すみません!!!【マッチした文字列3番目より以下を削除】という意味です・・・!!

    キャンセル

  • otn

    2017/04/25 16:33

    それって、例とあってない気がしますが。

    キャンセル

回答 2

+1

content = '
<p>~~~</p>
<h2>~~</h2>
<p class="aaa">~~~</p>
~~~以降は削除~~~
<p>~~~</p>
<a>~~~</a>
'
puts(content.sub(/(<p class="aaa">.*?<\/p>).*/m, "\\1"))

出力結果

<p>~~~</p>
<h2>~~</h2>
<p class="aaa">~~~</p>

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/04/25 16:29

    かしこまりました、何度も申し訳ございませんでした・・・!!!
    ご指摘ありがとうございます・・・!!!

    キャンセル

  • 2017/04/25 16:44

    これが読めたらあとは応用でちょっと変更するだけでできますから。

    キャンセル

  • 2017/04/25 17:15

    勉強になります。

    キャンセル

checkベストアンサー

0

#encoding: utf-8

sample1 = '
<p>~~~</p>
<h2>~~</h2>
<p class="aaa">~~~</p>
~~~以降は削除~~~
<p>~~~</p>
<a>~~~</a>
'

sample2 = '
<p style="text-align: left;"><a href="http://naiken.nurve.jp/" target="_blank">VR内見公式サイト</a></p>
<p style="text-align: left;">
 <a href="http://hoge.jpg" rel="attachment wp-att-96738>
 <img class="hoge" src="http://hoge.jp/hoge.jpg" alt="sub" width="000" height="000"/>
 </a>
</p>
~~~以降を削除~~~
<p style="text-align: left;">Hello</p>
<h2 style="text-align: left;">Hello</h2>
'

sample3 = '
<h2>aaaについて</h2>
<p class="sssssss"><a href="http://~~~~~~~~~"><img class="~~~" /></a></p>
<p>~~~~~~~~~~~~~~~~~~~~</p>
<p>aaaaaaaaaaaaaaaaaaaa</p>
<h3><i class="~~~~~~~~~~"></i><span>hoge</span></h3>
<p><iframe width="000" height="000" src="https://www.youtube.com/embed/aaaaaa></iframe></p>
<h2>aaaaaaa</h2>
<p>~~~~~~~~~~~~~~~~~~~</p>
'


content = Array.new
content.push(sample1)
content.push(sample2)
content.push(sample3)

content.each do |e|
  if e[0] == "\n"
    e.slice!(0)
  end

  data = e.chomp.split("\n")
  checklist = data.map.with_index{|e, i| i if e.include?("/p>") }.compact

  puts data[0..checklist[1]] #ここを変更
  puts ""
end


実行結果例

<p>~~~</p>
<h2>~~</h2>
<p class="aaa">~~~</p>

<p style="text-align: left;"><a href="http://naiken.nurve.jp/" target="_blank">VR内見公式サイト</a></p>
<p style="text-align: left;">
 <a href="http://hoge.jpg" rel="attachment wp-att-96738>
 <img class="hoge" src="http://hoge.jp/hoge.jpg" alt="sub" width="000" height="000"/>
 </a>
</p>

<h2>aaaについて</h2>
<p class="sssssss"><a href="http://~~~~~~~~~"><img class="~~~" /></a></p>
<p>~~~~~~~~~~~~~~~~~~~~</p>


正規表現ではないですが考えてみました。
「\p>」の数を数えて2番目に出現したところまでで切って表示しています。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.92%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る