PythonでのWebスクレイピングに関して質問です。
ライブラリBeautifulSoupのfind_allでHTMLの要素を探したいのですが、
特定の要素を探そうとするとが返ってきます。
具体的にはこのページのPerformanceの数値を取得するためにを探しています。
<a>や<div>等は正常に抽出されるため何がいけないのか検討もつきません。
原因や解決策があれば提示していただけるとうれしいです。

#coding: UTF-8
import urllib2
from bs4 import BeautifulSoup

url = "https://osu.ppy.sh/u/8341091"
html = urllib2.urlopen(url)
soup = BeautifulSoup(html, "html.parser")

elm = soup.find_all("b")

print elm

Lhankor_Mhy

2018/12/11 00:30

当該ページを見てみましたが、元々のHTMLにはb要素がないようでした。javascriptで動的に生成されているような気がしますので、BeautifulSoupでは対応が難しいでしょう。

退会済みユーザー

2018/12/11 02:14

返信ありがとうございます。

退会済みユーザー

2018/12/11 02:16

URLの中の/u/が/user/にリダイレクトされて最近できたレイアウトのページに飛ばされるようです、/u/に書き直して開き直してもb要素ありませんか

barobaro

2018/12/11 02:51

javascriptでレンダリングしないと表示されないようですが、Performanceの数値って具体的にどの数値なのでしょうか？画面キャプチャしたものか数値のタイトルを記載してください。

Lhankor_Mhy

2018/12/11 03:12

開きなおしてもリダイレクトされるのでは……？

退会済みユーザー

2018/12/11 08:16

リンク先のページではGlobal Ranking: 78,837です(2018/12/11 16:53)。

行動規範の内容に同意します

回答2件

ベストアンサー

BeautifulsoupではJavaScriptでレンダリングできないので簡単なrequests-htmlをインストールしてください。

requests-html
https://html.python-requests.org/

インストール

sh
1pip install requests-html

プログラム

python
1from requests_html import HTMLSession
2
3# URLを入力
4url = 'https://osu.ppy.sh/users/8341091'
5
6session = HTMLSession()
7r = session.get(url)
8
9r.html.render()
10
11ranking = r.html.find('div.value-display__value', first=True).text
12
13print(ranking)

投稿2018/12/11 08:35

barobaro

総合スコア1286

退会済みユーザー

2018/12/11 08:55

回答ありがとうございます。早速やってみたのですが。インストールがうまくいっていないらしく実行時にエラーが出ます。構文エラー？みたいなんですけどソースコードの外らしく原因がいまいちわかりません。 ``` Traceback (most recent call last): File "reqHTML.py", line 2, in <module> from requests_html import HTMLSession File "/home/ユーザー名/.local/lib/python2.7/site-packages/requests_html.py", line 20 def __init__(self, *, element, html=None, url): ^ SyntaxError: invalid syntax ```

barobaro

2018/12/11 09:30

python3.6でないと動かないようです。ご使用のOSがubuntuでしたらpython3で実行してください。 python3 --version でバージョン確認後3.6.Xでしたらインストール pip3 install requests-html --user python3 reqHTML.py で動くとおもいます。

退会済みユーザー

2018/12/11 09:47

無事動きました、丁寧なご指導ありがとうございます！

行動規範の内容に同意します

Pythonでスクレイピング時にJavaScriptが必要か調べる
https://imabari.hateblo.jp/entry/2018/12/11/103841

のプログラムを利用

Javascriptのレンダリングにより
CSS 6 件　見つかりました
※requests-html, selenium, scrapy-splashでスクレイピングしてください
Nightcore mod enabled!
DoubleTime mod enabled!
DoubleTime mod enabled!
Nightcore mod enabled!
Hidden mod enabled!
No Fail mod enabled!

bタグの中にPerformanceの数値は含まれていません

python
1from requests_html import HTMLSession
2
3# URLを入力
4url = 'https://osu.ppy.sh/users/8341091'
5
6# CSSまたはXPATHセレクタを入力
7css = 'b'
8xpath = ''
9
10
11def view(data):
12
13    for i in data:
14
15        print(i.html)
16
17
18def check(message, base, java):
19
20    base_cnt = len(base)
21    java_cnt = len(java)
22
23    if base_cnt > 0:
24
25        print(message, base_cnt, '件　見つかりました')
26        view(base)
27
28    elif java_cnt > 0:
29
30        print('Javascriptのレンダリングにより')
31        print(message, java_cnt, '件　見つかりました')
32        print('※requests-html, selenium, scrapy-splashでスクレイピングしてください')
33        view(java)
34
35    else:
36
37        print(message, '見つかりません。セレクタをご確認ください。')
38
39
40if __name__ == '__main__':
41
42    session = HTMLSession()
43    r = session.get(url)
44
45    with open('01_base.html', mode='w', encoding='utf-8') as fw:
46        fw.write(r.html.html)
47
48    # CSSセレクタ
49    if css:
50
51        base_css = r.html.find(css)
52
53    # XPATH
54    if xpath:
55
56        base_xpath = r.html.xpath(xpath)
57
58    # Javascriptレンダリング
59    r.html.render()
60
61    with open('02_java.html', mode='w', encoding='utf-8') as fw:
62        fw.write(r.html.html)
63
64    # CSSセレクタ
65    if css:
66
67        java_css = r.html.find(css)
68        check('CSS', base_css, java_css)
69
70    # XPATH
71    if xpath:
72
73        java_xpath = r.html.xpath(xpath)
74        check('XPATH', base_xpath, java_xpath)
75