Pythonとseleniumを用いて、検索結果を取得する。

https://torina.top/detail/318/
上記のサイトを参考に、googleの検索結果を取得しようとしたですが、解消できないエラーに遭遇しました。

Python
1from collections import namedtuple
2import time
3from selenium import webdriver
4from selenium.common.exceptions import NoSuchElementException
5from selenium.webdriver.common.keys import Keys
6
7SearchResultRow = namedtuple(
8'SearchResultRow',
9['title', 'ul', 'display_url', 'dis']
10)
11
12AdResultRow = namedtuple(
13'AdResultRow',
14['title', 'ul', 'display_url', 'dis1', 'dis2', 'dis3']
15)
16
17RelationResultRow = namedtuple(
18'RelationResultRow',
19['word', 'url']
20)
21
22def get_text_or_none(element, num):
23
24    for row in driver.find_elements_by_css_selector('div.spam'):
25        a_element = row.find_elements_by_tag_name('a')
26        a1 = get_elements_of_one(a_element, 0)
27        a2 = get_elements_of_one(a_element, 1)
28        a3 = get_elements_of_one(a_element, 2)
29
30    try:
31        return element[num].text
32    except IndexError:
33        return ''
34
35class GoogleScrapy:
36
37    def __init__(self, keyword, end = 1, default_wait=5):
38        self.url = 'https://www.google.co.jp?pws=0'
39        self.keyword = keyword
40        self.end = end
41        self.default_wait = default_wait
42        self.driver = webdriver.Firefox()
43        self.searches = [[] for x in range(end)]
44        self.ads = [[] for x in range(end)]
45        self.relations = [[] for x in range(end)]
46
47    def enter_keyword(self):
48        self.driver.get(self.url)
49        self.driver.find_element_by_id('lst-ib').send_keys(self.keyword)
50        self.driver.find_element_by_id('lst-ib').send_keys(Keys.RETURN)
51
52    def next_page(self):
53
54        self.driver.find_elements_by_css_selector('a#pnnext').click()
55        time.sleep(self.default_wait)
56
57    def get_search(self, page):
58
59        all_search = self.driver.find_element_by_class_name('rc')
60        for data in all_search:
61            title = data.find_element_by_tag_name('h3').text
62            url = data.find_elements_by_css_selector('h3 > a').get_attribute('href')
63            display_url = data.find_element_by_tag_name('cite').text
64            try:
65                dis = data.find_element_by_class_name('st').text
66            except NoSuchElementException:
67                dis = ''
68
69            result = SearchResultRow(title, url, display_url, dis)
70            self.searches[page].append(result)
71
72    def get_ad(self, page):
73
74        all_abs = self.driver.find_element_by_class_name('ads-ad')
75        for abs in all_abs:
76            title = abs.find_element_by_tag_name('h3').text
77            url = abs.find_elements_by_css_selector('h3 > a')[1].get_attribute('href')
78            display_url = abs.find_element_by_tag_name('cite').text
79
80            dis_element = abs.find_element_by_class_name('ellip')
81            dis1 = get_text_or_none(dis.element, 0)
82            dis2 = get_text_or_none(dis.element, 1)
83            dis3 = get_text_or_none(dis.element, 2)
84            result = AdResultRow(title, url, display_url, dis1, dis2, dis3)
85            self.abs[page].append(result)
86
87    def get_relation(self, page):
88        all_relation = self.driver.find_elements_by_css_selector('p._e4b > a')
89        for relation in all_relation:
90            word = relation.text
91            url = relation.get_attribute('href')
92            result = RelationResultRow(word, url)
93            self.relations[page].append(result)
94
95    def start(self):
96        try:
97            self.driver = webdriver.Firefox()
98            self.driver.implicitly_wait(self.default_wait)
99            self.enter_keyword()
100            for page in range(self.end):
101                self.get_search(page)
102                self.get_ad(page)
103                self.get_relation(page)
104                self.next_page()
105
106        finally:
107            self.driver.quit()
108

Python
1from gscrapy import GoogleScrapy
2
3google = GoogleScrapy('プログラミング', end=3)
4google.start()
5
6print('検索結果 全ページ')
7print('-'*30)
8for page_num, row in enumerate(google.searches, 1):
9    print('-'*30)
10    print('{0}ページ目'.format(page_num))
11    print('-'*30)
12    for row in rows:
13        print(row.title)
14
15print('-'*30)
16print('広告1ページのみ')
17print('-'*30)
18for row in google.abs[0]:
19    print(row.title)
20
21print('-'*30)
22print('関連キー3ページのみ')
23print('-'*30)
24for row in google.relations[2]:
25    print(row.word )
26

エラーメッセージがこちらです。
Traceback (most recent call last):
File "main.py", line 4, in <module>
google.start()
File "/home/rarigo/snake_practice/gscrapy.py", line 101, in start
self.get_search(page)
File "/home/rarigo/snake_practice/gscrapy.py", line 60, in get_search
for data in all_search:
TypeError: 'FirefoxWebElement' object is not iterable

環境
Python3.5.2

このエラーの解消法を教えてください。

行動規範の内容に同意します

回答2件

ベストアンサー

いくつかタイプミスがあるようですね。mkgrei様がおっしゃっているように、

「element]と「elements」
「ads」と「abs(ミスタイプと思われます。dです。)」

に注意してください。
また、get_text_or_none関数の上側のコードはドックストリングという、プログラムの説明的な部分に含まれていたコードです。実際の処理は、以下の4行だけです。

python
1    try:
2        return element[num].text
3    except IndexError:
4        return ''

どうにもならなかったら、単純にコピーペーストをするほうが良いかもしれません。

投稿2018/03/09 22:26

編集2018/03/09 22:27

toritoritorina

総合スコア972

all_search = self.driver.find_elements_by_class_name('rc')だったりしませんか。

投稿2018/03/08 20:48

mkgrei

総合スコア8560

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

Pythonとseleniumを用いて、検索結果を取得する。

関連した質問