googleの検索上位100件をスクレイピングしたい

前提

python初心者です。https://inasala.com/scraping-google-search/のサイトを参考にgoogleの検索上位100件をスクレイピングしようとしています。

###　質問
・https://inasala.com/scraping-google-search/のfor文の中に書いてある　　　　site.select('h3.zBAuLc')[0].textの[0]は何を表しているのか

・自分の書いたコードのエラー原因は何なのか

エラー内容

12個くらいまでは表示されますが、それ以降はエラーがでて表示されません

Python
1IndexError: list index out of range

自分の書いたコード

python
1import requests as rq
2from bs4 import BeautifulSoup
3
4ser_wor = "プログラミング初心者"
5print(f"検索ワード :{ser_wor}")
6count = 100
7
8url = f"https://www.google.co.jp/search?hl=ja&num={count}&q={ser_wor}"
9html = rq.get(url)
10html.raise_for_status()
11soup = BeautifulSoup(html.content, "html.parser")
12search_page = soup.select("div.kCrYT > a")
13
14for i in range(len(search_page)):
15    print(search_page[i].select("h3")[0].text)

meg_

2022/01/02 14:26

Googleはスクレイピング禁止だったかと思います。利用規約等は確認されましたでしょうか？

行動規範の内容に同意します

回答1件

ベストアンサー

site.select('h3.zBAuLc')[0].textの[0]は何を表しているのか

site.select('h3.zBAuLc') の結果はリストで返ってきます。なので、[0] は、そのリストの最初の要素を指しています(0 はインデックス)。

自分の書いたコードのエラー原因は何なのか

for ループを以下の様に書き変えてみると判るかと思いますが、途中に空(から)リスト([])があります。つまり、h3 タグの要素がない場合があるためです。

python
1for i in range(len(search_page)):
2    p = search_page[i].select("h3")
3    print(p)
4    if p:
5        print(p[0].text)

投稿2022/01/02 12:37

編集2022/01/02 12:40

melian

総合スコア20655

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

googleの検索上位100件をスクレイピングしたい

前提

エラー内容

自分の書いたコード

関連した質問