質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.36%
Ruby

Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

URL

URL(ユニフォームリソースロケータ)とは、インターネット上のリソース(Webページや電子メールの宛先等)を特定するための形式的な記号の並びの事を言う。

置換

置換とは文字列中の特定の文字に対して、別の文字列に置き換えることを指します。

Q&A

2回答

950閲覧

rubyでソースコード内の複数のリンクの置換について

kaori_oka

総合スコア176

Ruby

Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

URL

URL(ユニフォームリソースロケータ)とは、インターネット上のリソース(Webページや電子メールの宛先等)を特定するための形式的な記号の並びの事を言う。

置換

置換とは文字列中の特定の文字に対して、別の文字列に置き換えることを指します。

0グッド

0クリップ

投稿2020/08/31 12:32

前提・実現したいこと

ソースコードをクローラーで取得し、その取得したコードのURLにシステムコードとパラメータがついているので、それを取り除きルートパスに直したソースに置き換えたいです。
リンクが1つの場合は問題なく置換できたのですが、複数のリンクが存在していると一番初めのリンクと、
一番最後のリンクの間が置換されてしまってうまく書き換えられませんでした。
お知恵を拝借いただけないでしょうか。

発生している問題

html

1<a href="index.php?eID=tx_nawsecuredl&amp;u=0&amp;file=/file/open/data/file/XXXXXXXX/XXXXXXXX.pdf&amp;t=1598345025&amp;hash=959a2df32e771e375313c68bf6777e00" class="pdf first odd blank">XXXXXXXXXXXXXXX.pdf</a> 2<p>文章文章文章文章文章文章文章文章文章文章</p> 3<p>文章文章文章文章文章文章文章文章文章文章</p> 4<p>文章文章文章文章文章文章文章文章文章文章</p> 5<a href="index.php?eID=tx_nawsecuredl&amp;u=0&amp;file=/file/open/data/file/XXXXXXXX/XXXXXXXX.pdf&amp;t=1598345025&amp;hash=959a2df32e771e375313c68bf6777e00" class="pdf first odd blank">XXXXXXXXXXXXXXX.pdf</a>

↑ こういうソースコードを取得して、

html

1<a href="/file/open/data/file/XXXXXXXX/XXXXXXXX.pdf" class="pdf first odd blank">XXXXXXXXXXXXXXX.pdf</a> 2<p>文章文章文章文章文章文章文章文章文章文章</p> 3<p>文章文章文章文章文章文章文章文章文章文章</p> 4<p>文章文章文章文章文章文章文章文章文章文章</p> 5<a href="/file/open/data/file/XXXXXXXX/XXXXXXXX.pdf" class="pdf first odd blank">XXXXXXXXXXXXXXX.pdf</a>

↑ このように書き換えたいが、

html

1<a href="/file/open/data/file/XXXXXXXX/XXXXXXXX.pdf" class="pdf first odd blank">XXXXXXXXXXXXXXX.pdf</a>

↑ このようになってしまう

該当のソースコード

ruby

1sauce = sauce.gsub(/<a href=\"index.php?.+file=.+&amp;t=.+&amp;hash=.+\" class=\".+\">.+</a>/)

試したこと

ruby

1sauce = sauce.sub(/<a href=\"index.php?.+file=.+&amp;t=.+&amp;hash=.+\" class=\".+\">[^<a href=]</a>/, "★リンク1★")

aタグの中にaタグが入らないように取得するために[^<a href=]を入れてみまして、loopで1つずつリンクを「★リンク1★」のように置換できればと試してみたのですが、上記のソースでは元のソースコードに変化がなかったです。

みなさまのお知恵を拝借したいです。
お願いいたします。

補足情報(FW/ツールのバージョンなど)

win10
ruby 2.6.5p114 (2019-10-01 revision 67812)

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

書かれているコードが完結しておらず、意図不明です。

" "の中でfile=から&の間を取り出せば良いので、

Ruby

1puts sauce.gsub(/".*?file=(.*?)&.*?"/,'"\1"')

投稿2020/08/31 13:09

otn

総合スコア85849

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

'.+' が6箇所あります。これが 「どんな文字列でもマッチ」なので途中の全てを飲み込んでしまいます。
6箇所全てを .+? にすればうまく行くかも

投稿2020/08/31 12:59

winterboum

総合スコア23567

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問