Webサイトからスクレイピングしてテキストを保存したい。

bs4とurllibを用いてスクレイピングをして以下のような構造のサイトからテキストを保存したいです。

スクレイピングしたいサイトHTML

…
<p data-v-xxxx(任意の英数字列) class="yyyy(任意の英数字列)">
    "持ってきたいテキスト"
    <!---->
</p>

試したこと

以下のコードを実行しました。

該当のソースコード

Python
1from bs4 import BeautifulSoup
2import requests
3
4load_url = "https://jarujaru.com/"
5html = requests.get(load_url)
6soup = BeautifulSoup(html.content, "html.parser")
7topic = soup.find(class_="title")
8
9for element in topic.find_all('p'):
10    print(element.text)

上記の結果は以下です。
Traceback (most recent call last):
File "scjaru.py", line 9, in <module>
for element in topic.find_all('p'):
AttributeError: 'NoneType' object has no attribute 'find_all'

CHERRY

2022/05/20 07:19

たとえば、 print( topic ) すると topic には、どのような値が入っているのでしょうか。

tarotarotaro

2022/05/20 08:53

Noneが返ってきました。

行動規範の内容に同意します

回答1件

そのウェブサイトは JavaScript を使用して動的にコンテンツを生成しています。ウェブブラウザの開発者ツール(Developer Tools)で通信状況を眺めてみると API が存在しますので、それを利用します。

python
1import requests
2import json
3from pprint import pprint
4
5title = []
6
7# News
8news_url = 'https://jarujaru.com/api/v1/news'
9r = requests.get(news_url)
10js = json.loads(r.content)
11for item in js:
12    title.append(item['title'])
13
14# Posts
15posts_url = 'https://jarujaru.com/api/v1/posts'
16r = requests.get(posts_url)
17js = json.loads(r.content)['data']
18for item in js:
19    title.append(item['title'])
20
21pprint(title)
22
23#
24['JARU JARU TOWER 2019\u3000～元号またいでんじゃねえよ！～',
25 '１０月４日新着情報！！ DVD 「JARU JARU TOWER 2018」発売決定！',
26 '「JARU JARU TOWER」メイキングムービー',
27 '最高レベルのムズい客の奴',
28 '喫茶店で全く音立てない客の奴',
29 'ネタ合わせ１回もせず初舞台に挑む奴',
30 '社長なれる奴となれない奴',
31             :
32