質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.22%

seleniumでの上位検索サイトのキーワードとタイトル、URLの取得ができない

解決済

回答 2

投稿

  • 評価
  • クリップ 0
  • VIEW 532

shuntatani

score 1

前提・実現したいこと

SEOにおける上位サイト20位のキーワードとタイトル、URLを取得したい

タイトルをクリックして、戻って、次のタイトルをクリックして、戻ってを繰り返そうとしたところでエラーが出ました。

発生している問題・エラーメッセージ

wifi おすすめ
Traceback (most recent call last):
  File "test2.py", line 55, in <module>
    i.click()
  File "/Users/kitayashun/.pyenv/versions/3.6.5/lib/python3.6/site-packages/selenium/webdriver/remote/webelement.py", line 80, in click
    self._execute(Command.CLICK_ELEMENT)
  File "/Users/kitayashun/.pyenv/versions/3.6.5/lib/python3.6/site-packages/selenium/webdriver/remote/webelement.py", line 633, in _execute
    return self._parent.execute(command, params)
  File "/Users/kitayashun/.pyenv/versions/3.6.5/lib/python3.6/site-packages/selenium/webdriver/remote/webdriver.py", line 321, in execute
    self.error_handler.check_response(response)
  File "/Users/kitayashun/.pyenv/versions/3.6.5/lib/python3.6/site-packages/selenium/webdriver/remote/errorhandler.py", line 242, in check_response
    raise exception_class(message, screen, stacktrace)
selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: element is not attached to the page document
  (Session info: chrome=83.0.4103.97)

該当のソースコード

#必要なライブラリのインポート
from selenium import webdriver
from selenium.webdriver.common.by import By
import gspread
import json
from oauth2client.service_account import ServiceAccountCredentials
import pandas as pd
import os
import time
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC


'''
#スプレッドシートの設定
scope = ['https://spreadsheets.google.com/feeds','https://www.googleapis.com/auth/drive']
credentials = ServiceAccountCredentials.from_json_keyfile_name('spred-api.json', scope)
gc = gspread.authorize(credentials)
SPREADSHEET_KEY = '1vTyCfkkwrKaoogdZmicT7_V6eKaI1t3ZgChaiRGakXE'
worksheet = gc.open_by_key(SPREADSHEET_KEY).sheet1



import_value = int(worksheet.acell('A1').value)
export_value = import_value+100
worksheet.update_cell(1,2, export_value)
'''

#キーワードの検索
driver = webdriver.Chrome('/usr/local/bin/chromedriver')
driver.implicitly_wait(30)

kws = ['wifi おすすめ','wimax 比較','クラウドwifi メリット']

driver.implicitly_wait(30)
WebDriverWait(driver, 15).until(EC.presence_of_all_elements_located)

#1ページ目の情報を取得
for kw in kws:
    driver.get('https://www.google.com/')
    search_box = driver.find_element_by_name('q')
    search_box.send_keys(kw)
    search_box.submit()
    #キーワード取得
    keywords = kw
    print(keywords)
    #タイトル取得
    h = driver.find_elements_by_class_name('LC20lb')
    for i in h:
        i.click()
        driver.back()








'''
#2ページ目の情報を取得
for kw in kws:
    driver.get('https://www.google.com/')
    search_box = driver.find_element_by_name('q')
    search_box.send_keys(kw)
    search_box.submit()
    next = driver.find_element_by_link_text('次へ')
    next.click()
    #キーワード取得
    keywords = kw
    print(keywords)
    #タイトル取得
    h = driver.find_elements_by_class_name('LC20lb')
    for i in h:
        print(i.text)
'''

試したこと

driver.implicitly_wait(30)を入れてみた

補足情報(FW/ツールのバージョンなど)

ここにより詳細な情報を記載してください。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

checkベストアンサー

0

3点ほどお伝えしたいことがあります。

なぜエラーが起こるのか

これをみてください。

class名取得はNG

何度か試せば分かりますが、googleは検索するたびにclass属性がランダム(?)に変化します。
よって今回class属性を元にDOMをみるのはナンセンスです。

スクレイピング許可

ググればすぐ出てくると思いますがgoogleはスクレイピングを禁止しています。
私は法律詳しくないですが、不正アクセスとみなされる可能性もあるかもしれません。


と踏まえた上で、一応コードを載せておきます。
とはいえ実際に動かして検証はしていないのでエラーが出た際はご愛嬌で。

results = {}
KWS = ['wifi おすすめ','wimax 比較','クラウドwifi メリット']

driver = webdriver.Chrome('/usr/local/bin/chromedriver')
driver.get('https://www.google.com/')

for kw in KWS:

    results[kw] = []
    driver.execute_script('document.getElementsByName("q")[0].value="%s";' % kw)
    driver.execute_script('document.getElementsByTagName("button")[0].click()')
    is_second_page = False

    while True:
        for i in range(len(driver.find_elements_by_css_selector('#rso > div > div > div > a'))):
            one_data = {}
            a_tag = driver.find_elements_by_css_selector('#rso > div > div > div > a')[i]
            a_tag.click()
            one_data['title'] = driver.title
            one_data['url'] = driver.current_url
            driver.back()
            results[kw].append(one_data)

        if is_second_page:
            driver.execute_script('document.getElementById("pnnext").click()')
            is_second_page = True
        else:
            break

print(results)

検索結果一覧ページの時点でhref属性にURLがくっついているので、
それらを一括で取得したあと、それぞれにdriver.getで遷移していけば、
わざわざ検索結果一覧にback必要はないのですが、
少々プログラムが複雑になりそうなのでやめておきました。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2020/06/13 16:27

    ご丁寧に回答いただきありがとうございます!!
    試してみます!

    キャンセル

0

今表示しているのではないページの要素を使おうとしたというエラーです。

i.click()ページ遷移したらその瞬間にhの要素は無効になります。
driver.back()で戻ったら、再度h = driver.find_elements_by_class_name('LC20lb')をやり直す必要があります。

追記

    for i in range(len(driver.find_elements_by_class_name('LC20lb'))):
        h = driver.find_elements_by_class_name('LC20lb')
        h[i].click()
        driver.back()


でしょうか。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2020/06/12 10:35

    送ってもらったコードをコピペして貼り付けたところIndexError: list index out of rangeが発生しました。自分なりに調べて、数字を変えたりしてみたのですが、どうにも修正できません。この場合はどうしたら良いのでしょうか?

    キャンセル

  • 2020/06/12 10:54

    うーむ。実行する毎に、driver.find_elements_by_class_name('LC20lb') の個数が違うと言うことですよね。
    もっとページ構成を調べる必要があるかと思います。
    毎回違うなら、「何個目の要素まで処理したか」じゃなくて「どの要素を処理したか」を記録して進めるようなことが必要でしょう、

    キャンセル

  • 2020/06/12 13:13

    頑張ってみます!ありがとうございました!

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.22%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る