##現状
現在Pythonでseleniumを使用して記事のスクレイピングを行なっています。
下記が現状のコードになります。(書いてる途中になります)
sample.py
1from selenium import webdriver 2import pandas as pd 3 4browser = webdriver.PhantomJS() 5url = "スクレイピング対象のURL" 6browser.get(url) 7 8page = 1 9 10while True: 11 if ・・・: 12 # 取得処理 13 else: 14 break
取得処理前の条件式で、次のページが存在すれば取得する
的な条件を書きたいと思い、find_elements_by_css_selector
を使用すれば満たす事が出来るかなぁと考えたのですが、どこの要素を取得すれば上手いこと行くのか、がわかりません。例えば、はてブの検索結果の場合、ページネートの次へ
の部分を取得したいのですが、どの要素を取得すべきなのか、わかりません。
##疑問点
次のページが存在すれば取得する
という条件式は、そもそも記事のスクレイピングを行う際に適しているのかこっちの方が簡単だよ
というのがあれば教えて頂きたいのと、私がやろうとしているやり方でいいのであれば、何処の要素を取得すれば良いのか、を教えて頂きたいです。(例としては、はてブの検索結果を使用して具体的に教えて頂けると嬉しいです)
※結局やりたい事としては、ある一定条件を満たした記事をズラーッと取得して、そのタイトルをcsvファイルに落とし込みたい
という事になります。
具体性に欠ける質問だと思いますので、適宜修正依頼等で質問して下さい。
よろしくお願い致します。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。