BeatifulSoup4で同じクラス名の中から特定の値を取得する方法

Python3.8でBeautifulSoupを使用してのスクレイピングをしています。
取得したいテキストのクラスが、他のテキストのクラスと重複しており、希望のテキストがうまく取得できません。

以下のようなhtmlで<p>部分すべてを取得するにはどうすればいいのでしょうか。

<p>は記載以外の個所もあり、この部分の<p>だけを取得したいと考えています。

html
1<h3>ステータス</h3>
2    <table class="textCenter">
3    <tr class="point"><th></th><th>Lv50</th></tr>
4    <tr><th class="th25">体力</th><td>5000</td></tr>
5    <tr><th>攻撃力</th><td>1000</td></tr>
6    <tr><th>防御力</th><td>1000</td></tr>
7</table>
8
9<table>
10    <tr class="point"><th>スキル</th><th>スキル</th></tr>
11    <tr><th class="th25">スキル1</th><td><h5>スキル1名前</h5><p>スキル1効果<strong>10%</strong>威力の攻撃</p></td></tr>
12    <tr><th>スキル2</th><td><h5>スキル2名前</h5><p>スキル2効果<strong>10%</strong>威力の攻撃</p></td></tr>
13</table>

skill = soup.find(class_="point")
for element in skill.find_all("p"):
としたのですが、最初のclass_="point"に<p>がないせいか、空白で返ってきます。

tiitoi

2020/02/19 06:56

スクレイピングは実際の HTML に応じて、抽出条件をかえる必要があるため、URL 及び取得したい範囲を追記してください

dedede_daiou

2020/02/19 07:00

https://ryu.sega-online.jp/special/character/c17546e9/ このサイトのスキル名、スキルが書かれたテーブル部分をテキストで取得したいと考えています。

行動規範の内容に同意します

回答1件

ベストアンサー

table が2つしかないので、soup.find_all("table")[1] で2つ目のテーブルをとってきて、その中身を解析すればいいのではないでしょうか。

python
1from bs4 import BeautifulSoup
2import requests
3import pandas as pd
4
5res = requests.get("https://ryu.sega-online.jp/special/character/c17546e9/")
6soup = BeautifulSoup(res.content)
7
8# 2つ目のテーブル
9table = soup.find_all("table")[1]
10
11data = []
12for tr in table.find_all("tr")[1:]:  # ヘッダーは除く
13    skill_type = tr.th.string
14    skill_name = tr.td.h5.string
15    skill_desc = tr.td.p.text
16
17    data.append({"種類": skill_type, "名前": skill_name, "説明": skill_desc})
18
19df = pd.DataFrame(data)
20df.to_csv("data.csv")
21
22print(df)

	種類	名前	説明
0	リーダースキル	全くもって、忌々しい……	補助タイプの味方の攻撃力が5%上昇
1	バトルスキル	蛇の生殺し Lv.5（クールタイム：8）	敵単体へ70%で打撲（5.0秒間で660ダメージ）（スキルレベル最大時）
2	ヒートアクション	鼓舞の極み Lv.5（消費ゲージ：3/クールタイム：5）	攻撃力が高い味方2体の攻撃力を8.0秒間32%上昇（スキルレベル最大時）