Pythonでスクレイピングを実施したいですが、findAllでクラスを全て抽出できません。

前提・実現したいこと

下記サイトからタイトル・売価をスクレイピングをしたいと考えております。
https://ranking.rakuten.co.jp/daily/408076/

発生している問題・エラーメッセージ

表題の通り、希望するクラスを全て抽出してくれません・・
80位分抽出されるはずが、20位までしか抽出されません。

該当のソースコード

Python
1url = "https://ranking.rakuten.co.jp/daily/408076/"
2res = requests.get(url)
3res_bs = bs(res.content,'html.parser')
4res_bs.findAll(class_=re.compile(r'rnkRanking_price'))

試したこと

途中からコードの配列が整列されていないように感じます。原因として考えられるでしょうか。

補足情報（FW/ツールのバージョンなど）

お手数をおかけいたしますが、詳しい方お知恵を貸してください。

Yasumichi

2020/05/23 11:01 編集

【認識誤りでした】

行動規範の内容に同意します

回答2件

ベストアンサー

grepしてみると80個あるのでおかしいと思ったのですが、中を見ると21個目以降はJavaScriptの中に組み込まれているようです。

HTML
1<script language="JavaScript" type="text/javascript">
2<!--
3var line = (function() {/*
4<!-- 4- -->
5<div class="rnkRanking_after4box">
6～～～この中に入っている
7*/}).toString();
8～～～

ということで、HTMLをそのままパーサーで解析して取り出すのは無理です。

Seleniumを使ってJavaScriptを実行しながら取得するか、上記のように埋め込まれているHTMLを加工して埋め込まれているタグを取り出してからパースするか。

#追記
後者の方針で、ちょっとやってみました。

Python
1import requests
2from bs4 import BeautifulSoup
3import re
4
5url = "https://ranking.rakuten.co.jp/daily/408076/"
6html = requests.get(url).content
7
8del1 = re.compile(rb'<script language="JavaScript" type="text/javascript">\s*<!--\s*var line = (function() \{/*',re.DOTALL)
9del2 = re.compile(rb'*/\}).toString();.+?</script>',re.DOTALL)
10
11html = del2.sub(b'',del1.sub(b'', html))
12
13bs = BeautifulSoup(html,'html.parser')
14
15x = bs.findAll(class_='rnkRanking_price')
16
17print(len(x)) #=> 80個取得できていることがわかる