スクレイピングで特定の要素を取得したい。

要件
スクレイピングしたいものの正解と書かれている要素を取得したいです。
正解は<div class="test1">の最初のpタグにあります。

現状
現状スクレイピングしたいものの<div class="test1">までしか取得できません。

開発環境
Python 3.7.3

スクレイピングしたいもの

<div class="test1">
	<p>正解</p>
	<p>不正解</p>
</div>
<div class="test2">
	<p>不正解</p>
	<p>不正解</p>
</div>

自分で書いたコード

import requests
import re
from bs4 import BeautifulSoup

def scraping(url):
  r = requests.get(url) 
  data = BeautifulSoup(r.text, 'html.parser')
  article = data.select("test1")
  return article

url = "スクレイピングしたいもののURL"
print(scraping(url))

jeanbiego

2020/06/29 02:57

正解と不正解を見分ける要素はどこにありますか。・pタグ内に特定の文字列（正解）が在る・test1の1個目だけ正解・その他

HearthXml

2020/06/29 03:00 編集

test1の1個目だけ正解が条件ですご指摘ありがとうございます。修正しました。

行動規範の内容に同意します

回答1件

ベストアンサー

以下でどうでしょう。selectはlistで返ってきてしまうので、findを使いました。
1個目が動作例、2個目が質問文と同じような形です。

python3
1from bs4 import BeautifulSoup
2
3r = """
4<div class="test1">
5    <p>正解</p>
6    <p>不正解</p>
7</div>
8<div class="test2">
9    <p>不正解</p>
10    <p>不正解</p>
11</div>
12"""
13data = BeautifulSoup(r, 'html.parser')
14article = data.find("div",class_="test1")
15print(article)
16"""
17<div class="test1">
18<p>正解</p>
19<p>不正解</p>
20</div>
21"""
22print(article.find("p"))
23"""
24<p>正解</p>
25"""
26print(article.find("p").get_text())
27"""
28正解
29"""

python3
1import requests
2import re
3from bs4 import BeautifulSoup
4
5def scraping(url):
6  r = requests.get(url) 
7  data = BeautifulSoup(r.text, 'html.parser')
8  article = data.find("div",class_="test1")
9  first_p = article.find("p").get_text()
10  return first_p
11
12url = "スクレイピングしたいもののURL"
13print(scraping(url))