質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Ruby

Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

RubyGems

RubyGemsはRubyによるプログラミングのためのパッケージマネジメントツールです。ユーザはこれを使用することで、Rubyライブラリのダウンロードやアップデートや、依存関係の自動解決が可能になります。

Ruby on Rails

Ruby on Railsは、オープンソースのWebアプリケーションフレームワークです。「同じことを繰り返さない」というRailsの基本理念のもと、他のフレームワークより少ないコードで簡単に開発できるよう設計されています。

Ruby on Rails 4

Ruby on Rails4はRubyによって書かれたオープンソースのウェブフレームワークです。 Ruby on Railsは「設定より規約」の原則に従っており、効率的に作業を行うために再開発を行う必要をなくしてくれます。

Q&A

1回答

3623閲覧

Ruby on Railsで無限スクロールサイトのスクレイピング方法について

Dongrill

総合スコア19

Ruby

Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

RubyGems

RubyGemsはRubyによるプログラミングのためのパッケージマネジメントツールです。ユーザはこれを使用することで、Rubyライブラリのダウンロードやアップデートや、依存関係の自動解決が可能になります。

Ruby on Rails

Ruby on Railsは、オープンソースのWebアプリケーションフレームワークです。「同じことを繰り返さない」というRailsの基本理念のもと、他のフレームワークより少ないコードで簡単に開発できるよう設計されています。

Ruby on Rails 4

Ruby on Rails4はRubyによって書かれたオープンソースのウェブフレームワークです。 Ruby on Railsは「設定より規約」の原則に従っており、効率的に作業を行うために再開発を行う必要をなくしてくれます。

0グッド

1クリップ

投稿2016/08/29 09:17

編集2016/08/29 09:19

###前提・実現したいこと
Railsでスクレイピングの練習をしているのですが、twitterのようにページ下部で無限スクロールするサイトでツイートのテキストを拾おうとすると最初の20件しかスクレイピングできません。そこで色々とネットで調べてInfinite Scrollという仕組みがあるなどの情報まではわかったのですが、具体的にRailsでスクレイピングプログラムに落とし込むことができておりません。Infinite Scroll以外も含めて無限スクロールサイトをRailsでスクレイピング可能にする具体的な良い方法はないでしょうか?

###該当のソースコード

def

1 agent = Mechanize.new 2 agent.user_agent_alias = "Mac Safari" 3 page = agent.get("https://twitter.com/ユーザー名") 4 texts = page.search('.js-tweet-text-container') 5 texts.each do |numbers| 6 text = numbers.search('p').inner_text 7 tweets = Tweet.where(text: text).first_or_initialize 8 tweets.save 9 end 10 11 end

###試したこと
Google chromeの検証モードでスクロールをして画面下まで行くとHTML上で新しいツイートのリストが増えたのを確認しましたが、その仕組みまではよく分かりませんでした。

###補足情報(言語/FW/ツール等のバージョンなど)
言語: Ruby on Rails(2.1.3)
OS: MAC OS X EL Capitan(10.11.5)

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ターゲットWebサイトがどのように Infinite Scroll を実現しているかによります。
たとえばここteratailでは、ここで紹介しているブックマークレットを実行することで無限スクロールできるようになりますが、その裏では、Google chromeの開発者ツールでネットワークタブを見る限り、クライアントからサーバへ以下のようなリクエストがでています(2016年8月29日現在):
https://teratail.com/questions/ajax_feed/20/60/btnActive/0
https://teratail.com/questions/ajax_feed/20/80/btnActive/0
teratailの場合は、上記URLのパラメータを変えることで任意の部分をjson形式で得られるので、それをほどいて必要なコンテンツを取り出せばよいです。

ただし、teratailの場合はAPIが用意されているので、そちらを使うのが期待されたやり方です。

twitterもAPIが用意されています。

投稿2016/08/29 10:32

matobaa

総合スコア2493

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Dongrill

2016/09/01 03:53

ご返信遅くなってしまい申し訳ありません。ご回答ありがとうございました。教えていただいた通りにtwitter APIを用いて自分なりに試行錯誤してみます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問