前提・実現したいこと
WEBページのグラフの数値と時間を1日おきに収集するプログラムを作りたいと考えています。
具体的には以下のソース(「発生している問題」に記載)におけるx(時間)とy(数値)を取得したいと考えています。
■WEBページ
https://downdetector.jp/shougai/twitter/
発生している問題・エラーメッセージ
HTMLの中で時間と数値のセットを見つけたのですが、
パースさせる方法がわかりません。
■HTML内容 ***略*** <canvas id="holder"></canvas> <script type="text/javascript"> var data = { status: 'danger', max_baseline: 9, min_baseline: 2, communicate: null, company: 'Twitter', max: 96, series: { reports: { label: translated_reports, data: [ { x: '2020-12-13T12:05:27+00:00', y: 3 }, { x: '2020-12-13T12:20:27+00:00', y: 4 }, { x: '2020-12-13T12:35:27+00:00', y: 6 }, { x: '2020-12-13T12:50:27+00:00', y: 6 }, { x: '2020-12-13T13:05:27+00:00', y: 8 }, { x: '2020-12-13T13:20:27+00:00', y: 3 }, { x: '2020-12-13T13:35:27+00:00', y: 4 }, ***略***
該当のソースコード
python
1import requests 2from bs4 import BeautifulSoup 3import re 4from time import sleep 5 6url_twitter = 'https://downdetector.jp/shougai/twitter/' 7res_twitter = requests.get(url_twitter) 8soup_twitter = BeautifulSoup(res_twitter.text, "html.parser") 9 10print(soup_twitter)
試したこと
BeautifulSoupで取得した情報をテキスト編集(正規表現などを利用し)しうまく抜き出せるか、
また該当ホームページの上位ディレクトリ(大本のページ)のソースが以下のようになっていたので、
数値だけでも取り出せるか試しましたが(Xpathをコピーして指定出来るか等)うまくいきませんでした。
補足情報(FW/ツールのバージョンなど)
Jupyter lab
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2020/12/15 10:14
2020/12/15 10:20
2020/12/15 12:08