正規表現について

Question

以下のソースからhttp://hoge.comという部分だけをRubyの正規表現で抜き出したいです ```lang-html 2

``` (?<=) わたしは上記のような正規表現を考えたのですがこれだと他の、以下の部分も引っかかってしまいます追記ソースに不備があったので訂正と、その詳細を追記します ```lang-html 2

Accepted Answer

再びこんにちは。追記に対しての回答になります。 >

は、そのすぐ後にのタグを閉じる側の不等号(>)と、のタグを開く側の不等号(<)との間には　任意の個数の半角スペースやタブがあるかもしれない。といった他の諸条件も考えなければいけませんが、そういった拡張も上記の正規表現を修正していけば対応できるのではないかと思います。ご参考になれば幸いです。

Answer

こんにちは。まず、考え方として **abcにマッチする正規表現は、単にそのまま abc** です。rubyで正規表現 abc を使うときには、 / で前後を囲んで regex = /abc/ としますが、この例で正規表現と呼ばれるものが該当する部分は、上記の/ と / で囲まれた中にある、 abc です。これと同じで、「http://hoge.comにマッチする正規表現」を作るときは、まずは、そのまま http://hoge.com から始めます。このまま何も手を加えずに使えたら楽なのですが、半角ドットは、ここままだと「任意の一文字」を表してしまうのでエスケープする必要があり、 http://hoge\.com とします。さらに、ruby のプログラムで正規表現を / で囲むことで作るときは、正規表現の中に現れる、スラッシュという文字そのものにマッチさせたいという意図で書く、/ もエスケープする必要があるので http:\/\/hoge\.com とします。これの前後を / で囲んで ```lang-ruby /http:\/\/hoge\.com/ ``` とすれば、rubyのプログラムの中で使えるようになります。以下、使用例です。 --- [ykt68@sakura-vps] ruby -v ruby 2.1.2p95 (2014-05-08 revision 45877) [x86_64-linux] [ykt68@sakura-vps] cat question10461.rb ```lang-xxx # coding: utf-8 text = < 2

EOS regex = /http:\/\/hoge\.com/ text.each_line do |line| if regex =~ line print line end end ``` [ykt68@sakura-vps] ruby question10461.rb

[ykt68@sakura-vps] --- 上記の例では、読み込むテキストの各行に、 http://hoge.com が１つ以上あれば、その行を出力します。注意点としてはこの正規表現では http://hoge.com/test/a.php や http://hoge.comic.jp といったものを含む行もマッチする点です。しかし、これらもマッチする正規表現であっても問題がない状況も考えられます。たとえば > 入力されるテキストに出てくるURLのドメインが > hoge.comである場合、そのURLは > http://hoge.com　に限られる。という前提があり、それを知っていたとするならば、 http://hoge.com　を取り出すのに、正規表現　http:\/\/hoge\.com で十分事足りることになります。つまり、入力されるテキストについてどれだけのことを知っているかによって、書くべき正規表現の複雑さが変わってくるということです。応用として、入力されたHTMLに含まれる、要素のhref属性または要素のsrc属性の値として出現する、http://hoge.com で始まるURLをすべて抜き出す。その際に、それがhrefの値なのか、srcの値なのか分かるようにする。という要件があったとします。その際は、たとえば正規表現regexを、以下のようにして取り出せます。 ```lang-ruby regex = /(href|src)="(http:\/\/hoge\.com[^"]*)"/ ``` 以下、これの使用例です。（※ソースコードの色付けが若干おかしくなります。） --- [ykt68@sakura-vps] cat question10461-2.rb ```lang-xxc # coding: utf-8 text = < 2

EOS regex = /(href|src)="(http:\/\/hoge\.com[^"]*)"/ text.each_line do |line| line.scan(regex) do |s| p s end end ``` [ykt68@sakura-vps] ruby question10461-2.rb ["href", "http://hoge.com/test/a.php"] ["href", "http://hoge.com/0000.php"] ["href", "http://hoge.com"] ["src", "http://hoge.com/img/0000.jpeg"] [ykt68@sakura-vps] --- ただし、 - 属性名（srcやhref）とその値の間に、空白文字があるかもしれなかったり、 - 属性の値を囲むクオートがダブルクオートだけではなくシングルクオートもあるかもしれなかったり - srcやhrefが大文字で、SRCやHREFとなっていることもあったり、なかったりすると、これらに対応するために正規表現にも追加が必要になってきて、これもまた、先に述べた入力されるテキストについてどれだけのことを知っているかによって、書くべき正規表現の複雑さが変わってくることの例です。以上、ご参考になりましたら幸いです。

正規表現について

とすれば、rubyのプログラムの中で使えるようになります。
以下、使用例です。

[ykt68@sakura-vps] ruby question10461.rb
<a href="http://hoge.com"><img src="http://img.hoge.com/0000.jpeg">
[ykt68@sakura-vps]

以下、これの使用例です。（※ソースコードの色付けが若干おかしくなります。）

関連した質問

とすれば、rubyのプログラムの中で使えるようになります。 以下、使用例です。

[ykt68@sakura-vps] ruby question10461.rb <a href="http://hoge.com"><img src="http://img.hoge.com/0000.jpeg"> [ykt68@sakura-vps]

以下、これの使用例です。（※ソースコードの色付けが若干おかしくなります。）

関連した質問

とすれば、rubyのプログラムの中で使えるようになります。
以下、使用例です。

[ykt68@sakura-vps] ruby question10461.rb
<a href="http://hoge.com"><img src="http://img.hoge.com/0000.jpeg">
[ykt68@sakura-vps]