検索結果のスクレイピングで特定のクラスの情報が取得できない

前提・実現したいこと

Goolge検索結果のスクレイピングを実装しています。

実現したいことは、映画の英語名を検索した際に「検索した映画の日本語名」と「その画像」を取得することです。

例えば、「Shawshank Redemption, The (1994)」と検索すると、検索結果の右側にその映画の日本語名と画像が複数枚でてくると思いますが、その名前と画像1枚を取得したいと考えています。

発生している問題・エラーメッセージ

エラーではなく、次の該当コードを実行するとからのリストが返ってきてしまいます。

該当のソースコード

実行したコードです。
selectしているのはWEBの検証機能で得られたクラスです。

python
1from bs4 import BeautifulSoup
2import requests
3
4def main(key):
5    url = 'https://www.google.com/search?q=' + key
6    result = requests.get(url)
7    soup = BeautifulSoup(result.text, 'html.parser')
8    title = soup.select('div.qrShPb kno-ecr-pt PZPZlf HOpgu mfMhoc')
9    img = soup.select('div.fWhgmd')
10    print(title)
11    print(img)
12    return 0
13
14if __name__ == "__main__":
15    main('Shawshank Redemption, The (1994)')

行動規範の内容に同意します

回答3件

ベストアンサー

日本語のタイトルに関しては現状ではクラス名が BNeawe で始まる最初の div 要素から取得できる様です(将来的には変更されるでしょう)。画像の URL に関しては /imgres で始まる href 属性から取得できます(こちらも将来的には変更されるでしょう)。

python
1from bs4 import BeautifulSoup
2import requests
3import re
4import urllib.parse
5
6def main(key):
7    url = 'https://www.google.com/search?q=' + urllib.parse.quote(key)
8    result = requests.get(url)
9    soup = BeautifulSoup(result.text, 'html.parser')
10    # japanese title
11    title = soup.select('div[class^="BNeawe"]')
12    if title: title = title[0].get_text()
13    # image url
14    img = []
15    for i in soup.select('[href^="/imgres"]'):
16        m = re.search(r'imgurl=(http.+?)&', i.get('href'))
17        if m: img.append(m[1])
18    # print result
19    print(title)
20    for nth, i in enumerate(img): print(f'{nth+1}: {i}')
21    return 0
22
23if __name__ == "__main__":
24    main('Shawshank Redemption, The (1994)')
25    main('2001: A Space Odyssey')
26    main('Witness, (1985)')
27
28#
29ショーシャンクの空に
301: http://piacinema2.xtwo.jp/contents/google/flyer/114076.jpg
312: https://m.media-amazon.com/images/M/MV5BNjQ2NDA3MDcxMF5BMl5BanBnXkFtZTgwMjE5NTU0NzE@._V1_.jpg
323: https://m.media-amazon.com/images/M/MV5BMDFkYTc0MGEtZmNhMC00ZDIzLWFmNTEtODM1ZmRlYWMwMWFmXkEyXkFqcGdeQXVyMTMxODk2OTU@._V1_FMjpg_UX1000_.jpg
334: https://i1.wp.com/100bestmovie.com/wp-content/uploads/2018/07/shawshank_redemption-1994-1.jpg?fit%3D928%252C523%26ssl%3D1
34
352001年宇宙の旅
361: http://piacinema2.xtwo.jp/contents/google/flyer/148122.jpg
372: https://images-na.ssl-images-amazon.com/images/I/913KBjQ6saL.jpg
383: https://m.media-amazon.com/images/M/MV5BMmNlYzRiNDctZWNhMi00MzI4LThkZTctMTUzMmZkMmFmNThmXkEyXkFqcGdeQXVyNzkwMjQ5NzM@._V1_FMjpg_UX1000_.jpg
394: https://images-na.ssl-images-amazon.com/images/I/717Egt3-z6L.jpg
40
41刑事ジョン・ブック 目撃者
421: https://encrypted-tbn3.gstatic.com/images?q%3Dtbn:ANd9GcSDd9_t1CNAXNLKc3K6_EcDj9bNcYJX3Ltbyxiu_DRKqC8RVoIK
432: http://www.houyhnhnm.jp/blog/moriyama/images/jedi_witness_movie.jpg
443: https://upload.wikimedia.org/wikipedia/en/thumb/b/bc/Witness_movie.jpg/220px-Witness_movie.jpg
454: https://godtv.com/wp-content/uploads/2017/03/witness-poster3.jpg