Python/SeleniumによるWEBスクレイピングでキーワードを繰り返し検索してそれぞれのヒット数を取得したい

前提

現在、以下のWEBスクレイピングの動画を見ていまして、自分でもWEB上の情報をCSVファイルに出力するというのを練習しています。

https://www.youtube.com/watch?v=VRFfAeW30qE&t=3587s

具体的には「Google検索からキーワードを検索し、ヒット数を取得、検索キーワードをクリアして、次のキーワードを検索し、ヒット数を取得、というのを繰り返し、最終的に漫画作品名と検索のヒット数をCSVで出力する」というのを題材としています。

繰り返し処理なので、for文でできると思い、色々試してみたものの、自分でもはっきりと違うとわかるコードしか書けなかったので、こちらで質問させていただきました。
for文に関する初歩的な質問で大変申し訳ないのですが、わかる方がいらっしゃったらご教示いただきたいです。

該当のソースコード

Python
1from selenium import webdriver
2from time import sleep
3from selenium.webdriver.common.by import By
4
5#検索したいキーワード
6keywords = ['ONE PIECE', 'NARUTO', 'ドラゴンボール', 'BLEACH', '銀魂', '呪術廻戦', 'HUNTER×HUNTER']
7
8#Googleにアクセス
9browser = webdriver.Chrome()
10url = 'https://www.google.com/'
11browser.get(url)
12sleep(3)
13
14## ここから繰り返し ##
15#「検索キーワード」を入力
16elem_keyword = browser.find_element(By.NAME,'q')
17elem_keyword.send_keys(keywords[0])
18sleep(2)
19
20#検索をクリック
21elem_searchbtn = browser.find_element(By.NAME,'btnK')
22elem_searchbtn.click()
23sleep(1)
24
25#ヒット数を取得
26elem_hit = browser.find_element(By.ID,'result-stats')
27hit = elem_hit.text
28sleep(1)
29
30#検索キーワードをクリア
31browser.find_element(By.NAME,'q').clear()
32sleep(1)
33
34## ここまで繰り返し ##
35
36
37#表を作成
38import pandas as pd
39df = pd.DataFrame()
40df['作品名'] = [keywords[0]]
41df['ヒット数'] = [hit]
42df
43
44#CSVで出力
45df.to_csv('漫画ヒット数調査結果.csv')

発生している問題

「繰り返し」の部分のfor文をどのように書けば良いのかわかっていない状況です。
やりたいことは検索キーワードをまとめて指定した上で、

1.検索キーワードを入力
2.検索をクリック
3.ヒット数を取得
4.キーワードをクリア
5.検索キーワードを入力
6.（以下すべてのキーワードが終わるまで繰り返し）

上記のように繰り返し、漫画のタイトルとそのヒット数を表にして、CSVで出力するというコードを書きたいと考えております。

補足情報（FW/ツールのバージョンなど）

Windows 11 Home
Python 3.12.0
Google Chrome バージョン: 118.0.5993.89（Official Build）（64 ビット）

行動規範の内容に同意します

回答1件

ベストアンサー

検索履歴が cookie に記録されるため、検索ワードと前回の検索ワードが関連付けられてしまってヒット数が表示されない場合があります。(手元の環境では3~4回に1回程度) そのため、キーワードごとにブラウザ(Google Chrome)を起動・終了させています。

python
1from selenium import webdriver
2from selenium.webdriver.common.by import By
3from selenium.webdriver.support.ui import WebDriverWait
4from selenium.webdriver.support import expected_conditions as EC
5import pandas as pd
6
7#検索したいキーワード
8keywords = ['ONE PIECE', 'NARUTO', 'ドラゴンボール', 'BLEACH', '銀魂', '呪術廻戦', 'HUNTER×HUNTER']
9
10#表を作成(予め列名を指定しておく)
11df = pd.DataFrame(columns=['作品名', 'ヒット数'])
12
13#Google search engine
14url = 'https://www.google.com/'
15#検索語入力欄
16search_word = (By.NAME,'q')
17#検索実行ボタン
18search_button = (By.NAME,'btnK')
19#ヒット数
20result_id = (By.ID,'result-stats')
21
22## ここから繰り返し ##
23for key in keywords:
24    #Googleにアクセス
25    browser = webdriver.Chrome()
26    browser.get(url)
27
28    #「検索キーワード」を入力
29    WebDriverWait(browser, 5).until(EC.visibility_of_element_located(search_word))
30    elem_keyword = browser.find_element(*search_word)
31    elem_keyword.send_keys(key)
32
33    #検索をクリック
34    WebDriverWait(browser, 5).until(EC.visibility_of_element_located(search_button))
35    elem_searchbtn = browser.find_element(*search_button)
36    elem_searchbtn.click()
37
38    #ヒット数を取得
39    WebDriverWait(browser, 5).until(EC.visibility_of_element_located(result_id))
40    elem_hit = browser.find_element(*result_id)
41    hit = elem_hit.text
42
43    #作品名とヒット数をデータフレームに追加
44    df.loc[len(df)] = [key, hit]
45
46    # close browser
47    browser.close()
48
49## ここまで繰り返し ##
50
51#CSVで出力
52df.to_csv('漫画ヒット数調査結果.csv')

投稿2023/10/26 16:46

melian

総合スコア21294

abcdtaichi

2023/10/27 15:22

的確なご回答をいただきましてありがとうございました。ご共有いただいたコードでもできましたし、検索キーワードをクリアしてキーワードを入力して再検索というカタチでもできました！ご共有いただいたコードの中で、データフレームに追加する方法を知らなかったので、非常に勉強になりました。（また表をあらかじめ作成する点やimportされているものも調べてみたいと思います）この機会に、さらにSeleniumやPandasの勉強をしたいと思います。今回はご回答いただきましてありがとうございました。

行動規範の内容に同意します