正規表現の初心者です。
e-Gov法令検索
ここのページのソースコードにHTMLタグが3箇所あり、正規表現で分離しようと思いました。
しかし、思うようにとれません。
/m をつけて、. が改行でもとれるようにしています。
/i をつけて、(タグの)大文字小文字を区別しないようにしています。
ruby
1html_str.scan(/<html.*>(.*)</html>/mi).each do |str| 2 puts str[0, 20] 3end
どのようにすればよろしいでしょうか。
nokogiri (追記)
もしくは、nokogiri などで、取り出したいのですが、それもうまくいかないです。
ruby
1require 'open-uri' 2require 'nokogiri' 3 4url = "https://elaws.e-gov.go.jp/search/elawsSearch/elaws_search/lsg0500/detail?lawId=417AC0000000086" 5doc = Nokogiri::HTML(open(url)) 6doc.xpath("//html").each do |e| 7 puts e.text.strip[0,50] 8end 9doc.xpath("//HTML").each do |e| 10 puts e.text.strip[0,50] 11end
回答1件
あなたの回答
tips
プレビュー