Pythonスクレイピング：同じ名前のクラス内での識別

すみません、質問させてください。
同じクラスが複数存在しているときにどうにかして識別できる方法はないでしょうか？

上記のような場合にWWWのみを抜き出すことは可能でしょうか？
BeautifulSoupを使ってやってます。
皆さんのお知恵を貸してください。
宜しくお願い致します。

行動規範の内容に同意します

回答3件

cssセレクタを使った方法です。

Python
1# -*- coding: utf8 -*-
2from bs4 import BeautifulSoup
3
4
5def main() -> None:
6    xml_str = """
7    <div class = "AAA">
8    <p class ="BBB">XXX</p>
9    <p> YYY </p>
10    </div>
11    <div class = "AAA">
12    <p class = "BBB">ZZZ</p>
13    <p>WWW</p>
14    </div>
15    """
16    soup = BeautifulSoup(xml_str, "html.parser")
17    elements = soup.select("div.AAA > p:nth-of-type(2)")
18    # elements -> [<p> YYY </p>, <p>WWW</p>]
19    target = elements.pop()
20    print(target.text)
21    # index指定
22    target = soup.select("div.AAA > p:nth-of-type(2)")[1]
23    # target -> <p>WWW</p>
24    print(target.text)
25
26if __name__ == '__main__':
27    main()
28

◇参考情報
Beautiful Soup 4.2.0 Doc. 日本語訳

投稿2018/04/05 01:49

編集2018/04/05 04:20

umyu

総合スコア5846

LowLow

2018/04/08 03:32

回答ありがとうございます。とても分かりやすく勉強になりました！ありがとうございました。

行動規範の内容に同意します

ベストアンサー

beautiful soupだと下記のようにしてできました。
もっとスマートな方法があればよいですけど。

python
1from bs4 import BeautifulSoup
2
3xml_str = """
4<div class = "AAA">
5<p class ="BBB">XXX</p>
6<p> YYY </p>
7</div>
8<div class = "AAA">
9<p class = "BBB">ZZZ</p>
10<p>WWW</p>
11</div>
12"""
13
14soup = BeautifulSoup(xml_str, "html.parser")
15elems = soup.find_all("div", class_="AAA")
16for elem in elems:
17    ps = elem.find_all("p")
18    if ps[0].text == "ZZZ":
19        print(ps[1].text)
20

投稿2018/04/05 00:53

ikapy

総合スコア1167

LowLow

2018/04/08 03:33

早速の解凍ありがとうございました。非常に勉強になりました。ありがとうございます。

行動規範の内容に同意します

xpathを使ってください。

beautiful soupは知らないので、とりあえずlxmlでやった例。

python
1# coding: UTF-8
2
3from lxml import etree
4
5xml_str = """<xml>
6<div class = "AAA">
7<p class ="BBB">XXX</p>
8<p> YYY </p>
9</div>
10<div class = "AAA">
11<p class = "BBB">ZZZ</p>
12<p>WWW</p>
13</div>
14</xml>"""
15
16root = etree.fromstring(xml_str)
17e = root.xpath("//div[@class='AAA' and p[@class='BBB' and text()='ZZZ']]/p[2]")
18print(etree.tostring(e[0]).decode())
19
20"""出力結果
21<p>WWW</p>
22
23"""