回答率: 85.35%

質問するログイン新規登録

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

新規登録して質問してみよう

ただいま回答率: 85.35%

トップ Rubyに関する質問

Q&A

解決済

1回答

1174閲覧

RubyでHTMLコードをscanしたい

総合スコア86

0グッド

0クリップ

投稿2020/07/08 13:32

編集2020/07/08 19:41

0

0

正規表現の初心者です。

e-Gov法令検索
ここのページのソースコードにHTMLタグが3箇所あり、正規表現で分離しようと思いました。
しかし、思うようにとれません。

/m をつけて、. が改行でもとれるようにしています。
/i をつけて、(タグの)大文字小文字を区別しないようにしています。

ruby
1html_str.scan(/<html.*>(.*)</html>/mi).each do |str|
2  puts str[0, 20]
3end

どのようにすればよろしいでしょうか。

nokogiri (追記)

もしくは、nokogiri などで、取り出したいのですが、それもうまくいかないです。

ruby
1require 'open-uri'
2require 'nokogiri'
3
4url = "https://elaws.e-gov.go.jp/search/elawsSearch/elaws_search/lsg0500/detail?lawId=417AC0000000086"
5doc = Nokogiri::HTML(open(url))
6doc.xpath("//html").each do |e|
7  puts e.text.strip[0,50]
8end
9doc.xpath("//HTML").each do |e|
10  puts e.text.strip[0,50]
11end

2020/07/08 13:39

正規表現でなければならないのでしょうか？REXMLやnokogiriなどのパーサを使うという選択肢はありませんか？

2020/07/08 19:43

出来るのであれば何でも良いのですが、nokogiri でもやってみたのですが、うまくいかないです。追記した自分のコードでとれて欲しいのですが、何がダメなのかわかりません。

2020/07/08 20:13

strip で両端の空白・改行が全て削除できてると思いこんでいましたが、\u00A0なるノーブレークスペースを削除できておらず、上手にとりだせてないと思いこんでいたようです。失礼しました。

行動規範の内容に同意します

回答1件

0

自己解決

何も表示されないので、うまくできていないと思いこんでいました。
しかし、strip で両端の空白・改行が全て削除できてると思いみがそもそもの間違いで、\u00A0なるノーブレークスペースという何も表示されない空白文字があり、これが期待通りに削除されていないことが原因でした。

投稿2020/07/10 05:31

総合スコア86

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問

トップ Rubyに関する質問

RubyでHTMLコードをscanしたい

関連した質問

同じタグがついた質問を見る

運営からのお知らせ

【ジャック広告の配信について】現在、非ログイン状態のユーザー様に対して一部の地域限定でジャック広告を配信しております。詳細につきましてはteratailブログをご確認ください。 https://blog.teratail.com/entry/jack-ad-202412

過去のお知らせを見る