質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.57%

Pythonとseleniumを用いて、検索結果を取得する。

解決済

回答 2

投稿

  • 評価
  • クリップ 0
  • VIEW 1,658

RarigoB

score 26

https://torina.top/detail/318/
上記のサイトを参考に、googleの検索結果を取得しようとしたですが、解消できないエラーに遭遇しました。

from collections import namedtuple
import time
from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.common.keys import Keys

SearchResultRow = namedtuple(
'SearchResultRow',
['title', 'ul', 'display_url', 'dis']
)

AdResultRow = namedtuple(
'AdResultRow',
['title', 'ul', 'display_url', 'dis1', 'dis2', 'dis3']
)

RelationResultRow = namedtuple(
'RelationResultRow',
['word', 'url']
)

def get_text_or_none(element, num):

    for row in driver.find_elements_by_css_selector('div.spam'):
        a_element = row.find_elements_by_tag_name('a')
        a1 = get_elements_of_one(a_element, 0)
        a2 = get_elements_of_one(a_element, 1)
        a3 = get_elements_of_one(a_element, 2)

    try:
        return element[num].text
    except IndexError:
        return ''

class GoogleScrapy:

    def __init__(self, keyword, end = 1, default_wait=5):
        self.url = 'https://www.google.co.jp?pws=0'
        self.keyword = keyword
        self.end = end
        self.default_wait = default_wait
        self.driver = webdriver.Firefox()
        self.searches = [[] for x in range(end)]
        self.ads = [[] for x in range(end)]
        self.relations = [[] for x in range(end)]

    def enter_keyword(self):
        self.driver.get(self.url)
        self.driver.find_element_by_id('lst-ib').send_keys(self.keyword)
        self.driver.find_element_by_id('lst-ib').send_keys(Keys.RETURN)

    def next_page(self):

        self.driver.find_elements_by_css_selector('a#pnnext').click()
        time.sleep(self.default_wait)

    def get_search(self, page):

        all_search = self.driver.find_element_by_class_name('rc')
        for data in all_search:
            title = data.find_element_by_tag_name('h3').text
            url = data.find_elements_by_css_selector('h3 > a').get_attribute('href')
            display_url = data.find_element_by_tag_name('cite').text
            try:
                dis = data.find_element_by_class_name('st').text
            except NoSuchElementException:
                dis = ''

            result = SearchResultRow(title, url, display_url, dis)
            self.searches[page].append(result)

    def get_ad(self, page):

        all_abs = self.driver.find_element_by_class_name('ads-ad')
        for abs in all_abs:
            title = abs.find_element_by_tag_name('h3').text
            url = abs.find_elements_by_css_selector('h3 > a')[1].get_attribute('href')
            display_url = abs.find_element_by_tag_name('cite').text

            dis_element = abs.find_element_by_class_name('ellip')
            dis1 = get_text_or_none(dis.element, 0)
            dis2 = get_text_or_none(dis.element, 1)
            dis3 = get_text_or_none(dis.element, 2)
            result = AdResultRow(title, url, display_url, dis1, dis2, dis3)
            self.abs[page].append(result)

    def get_relation(self, page):
        all_relation = self.driver.find_elements_by_css_selector('p._e4b > a')
        for relation in all_relation:
            word = relation.text
            url = relation.get_attribute('href')
            result = RelationResultRow(word, url)
            self.relations[page].append(result)

    def start(self):
        try:
            self.driver = webdriver.Firefox()
            self.driver.implicitly_wait(self.default_wait)
            self.enter_keyword()
            for page in range(self.end):
                self.get_search(page)
                self.get_ad(page)
                self.get_relation(page)
                self.next_page()

        finally:
            self.driver.quit()
from gscrapy import GoogleScrapy

google = GoogleScrapy('プログラミング', end=3)
google.start()

print('検索結果 全ページ')
print('-'*30)
for page_num, row in enumerate(google.searches, 1):
    print('-'*30)
    print('{0}ページ目'.format(page_num))
    print('-'*30)
    for row in rows:
        print(row.title)

print('-'*30)
print('広告1ページのみ')
print('-'*30)
for row in google.abs[0]:
    print(row.title)

print('-'*30)
print('関連キー3ページのみ')
print('-'*30)
for row in google.relations[2]:
    print(row.word )

エラーメッセージがこちらです。
Traceback (most recent call last):
File "main.py", line 4, in <module>
google.start()
File "/home/rarigo/snake_practice/gscrapy.py", line 101, in start
self.get_search(page)
File "/home/rarigo/snake_practice/gscrapy.py", line 60, in get_search
for data in all_search:
TypeError: 'FirefoxWebElement' object is not iterable

環境
Python3.5.2

このエラーの解消法を教えてください。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

checkベストアンサー

0

いくつかタイプミスがあるようですね。mkgrei様がおっしゃっているように、

「element]と「elements」
「ads」と「abs(ミスタイプと思われます。dです。)」

に注意してください。
また、get_text_or_none関数の上側のコードはドックストリングという、プログラムの説明的な部分に含まれていたコードです。実際の処理は、以下の4行だけです。

    try:
        return element[num].text
    except IndexError:
        return ''

どうにもならなかったら、単純にコピーペーストをするほうが良いかもしれません。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

0

all_search = self.driver.find_elements_by_class_name('rc')だったりしませんか。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.57%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

同じタグがついた質問を見る