[Python] Beautiful soupでclass属性を指定した検索ができません

Google検索で「soup」と検索したページのhtlmをrequests()で取得して、
その中の class=r の要素を抽出することを目的にして、
コマンドラインで下のようなコードを書きました。

>>> import requests, bs4
>>> res = requests.get('https://www.google.com/search?q=soup')
>>> res.raise_for_status()
>>> soup = bs4.BeautifulSoup(res.text)
>>> elm = soup.select(".r")
>>> len(elm)
0

しかしlen()で確認すると何もないという結果が帰ってきてしまいます。
soup.select()の引数に'.ｒ'の代わりに"[class='r']"と書いてみても駄目でした。
何が問題でしょうか？

↓ページのHTMLです。欲しいのはこういう属性値ｒを持った要素です。

hayataka2049

2019/12/30 22:54

googleはスクレイピング等を禁止しています。 https://support.google.com/webmasters/answer/66357 試みないでください。この質問は取り下げてください（回答が付く前であればゴミ箱マークから削除依頼が可能です）。

shiracamus

2019/12/31 01:27

print(soup) してみれば、目当てのHTML行がないことがわかります。

toera

2019/12/31 11:16 編集

>shiracamusさんプリントしてみたところ、確かに当てはまるHTML行がありませんでした。ブラウザの「要素を調査」から開発者ツールで見た場合にはclass ='r'とあるのはなぜなんでしょうね… とにかく原因がわかりました、ありがとうございます。 >hayataka2049さん規約を読んだところ＞自動化されたクエリを Google から明示的な許可を事前に得ずに Google のシステムに送信することは禁止されています。とのことですが、この質問では自動でなく手動です。問題はあるのでしょうか？

JUN_SAN

2020/03/10 09:17

サーバー直下のrobots.txtを見れば、そのページをスクレイピング及びクローリングしてよいかはわかるはずです。「明示的な許可」とはこのことではないでしょうか。

行動規範の内容に同意します

回答2件

requests関数を使う場合、Webサイトによっては、headers引数を指定する必要があるかもしれません。

python
1import requests
2from bs4 import BeautifulSoup
3
4def testGoogle():
5
6    strHeaders = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36"}
7    res = requests.get('https://www.google.com/search?q=soup', headers=strHeaders)
8    res.raise_for_status()
9    soup = BeautifulSoup(res.text, 'html.parser')
10    elm = soup.select(".r")
11    print(len(elm))
12
13if __name__ == '__main__':
14    testGoogle()
15