rubyでHTML解析

htmlファイルで保存した下記のページからテキストを抽出したいと考えています。
http://realtime.search.yahoo.co.jp/search?lz=1&ei=UTF-8&rkf=1&ch=1

<div class="cnt cf" data-time="1453313838"> <h2> Nhkが大空撮ヒマラヤ山脈とかいうのやってる見ながら寝るぞ</h2> <p class="img"><a href="http://ord.yahoo.co.jp/o/realtime/_ylt=A7dPeCDRz59WJnIAOBBol_p7;_ylu=X3oDMTF2bGYyYWNvBHBvcwMxBHNlYwNzcgRzbGsDdHdpY28EdHdpZAM2ODk4NzQzNTcxMDM5NTE4NzIEdHd1aWQDMTYzMDczMTcyOA--/SIG=11jvvamk6/EXP=1453400401/**http%3a//twitter.com/miketamamyuu" target="_blank"><img src="http://iwiz-rts.c.yimg.jp/p/rts/zVIHPvdxwzByCBUZL2lFSfPUyRhi7XP1mKcCDBGgNR02nMOnAU24A3cCoxJeiZkT1DKFsdQk1a2DJeFPwmT5Wo9aR8gHOi0UJHvOHkPsHw--" alt="" width="48" height="48"></a></p><div class="inf cf"> <p class="lt">

「Nhkが大空撮ヒマラヤ山脈とかいうのやってる見ながら寝るぞ」という部分を抽出したいです。

ruby
1
2page_source = open("tweet.html", "r:utf-8",&:read)
3
4dates = page_source.scan(????)
5puts dates

scan(????)の????はどのように書けばよいのでしょうか？

行動規範の内容に同意します

回答1件

ベストアンサー

これでh2部分を取得できると思います。

ruby
1page_source.scan(%r{<h2>(.+?)</h2>})

回答とは少し違いますが、nokogiriとgemを使えば簡単にできますよ。

shell
1gem install nokogiri

ruby
1require "nokogiri"
2
3f   = File.open('tweet.html')
4doc = Nokogiri::HTML(f)
5
6doc.css('h2').inner_text

投稿2016/01/21 00:50

suzUkai74

総合スコア135

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

rubyでHTML解析

関連した質問