スクレイピングでタグ名を完全一致で検索する方法

いつもお世話になっております。
表題について質問させていただきます。

あるサイトのスクレイピングをしているのですが、うまく抽出することができません。

Python
1from bs4 import BeautifulSoup
2import requests
3
4response = requests.get("https://たーげっと/").text
5#print (response.text)
6soup = BeautifulSoup(response, 'html.parser') 
7print(soup.prettify())
8
9page_tags = soup.find_all('a', class_='d-n-t')
10for tag in real_page_tags:
11 print(tag)
12

上記サイトをスクレイピングした結果が下記です。

<a class="devsite d-n-t gc-a " data-category="SWCE" data-label="RT: S" href="https://hogehoge/">
			AAA
        </a>
<a class="d-n-t　gc-a " data-category="SWCE" data-label="RT: R" href="https://hogehoge/"> 
			BBB
        </a>
<a class="d-n-t　gc-a " data-category="SWCE" data-label="RT: A" href="https://hogehoge/">
			CCC
      </a>
<a class="d-n-t" href="https://title">タイトル</a>
<a class="d-n-t" href="https://ほげほげ１/">ほげほげ１</a>
<a class="d-n-t" href="https://ほげほげ２/">ほげほげ２</a>
<a class="d-n-t" href="https://ほげほげ３">ほげほげ３</a>

class名が"d-n-t"となっているもののみを抽出したいのですが、異なるものも抽出されてしまいました。

■class名が完全一致したもののみ抽出する
■特定のタグ名をふくむものは除外する
のようなことができれば実現できるとおもうのですが、どのようにすればすればいいでしょうか。

どうぞよろしくお願い致します。

行動規範の内容に同意します

回答1件

ベストアンサー

CSS セレクタをお使いください。

python
1html = '''
2<a class="devsite d-n-t gc-a " data-category="SWCE" data-label="RT: S" href="https://hogehoge/">
3            AAA
4        </a>
5<a class="d-n-t　gc-a " data-category="SWCE" data-label="RT: R" href="https://hogehoge/"> 
6            BBB
7        </a>
8<a class="d-n-t　gc-a " data-category="SWCE" data-label="RT: A" href="https://hogehoge/">
9            CCC
10      </a>
11<a class="d-n-t" href="https://title">タイトル</a>
12<a class="d-n-t" href="https://ほげほげ１/">ほげほげ１</a>
13<a class="d-n-t" href="https://ほげほげ２/">ほげほげ２</a>
14<a class="d-n-t" href="https://ほげほげ３">ほげほげ３</a>
15'''
16
17soup = BeautifulSoup(html, "html.parser")
18for tag in soup.select('a[class="d-n-t"]'):
19    print(tag)

<a class="d-n-t" href="https://title">タイトル</a>
<a class="d-n-t" href="https://ほげほげ１/">ほげほげ１</a>
<a class="d-n-t" href="https://ほげほげ２/">ほげほげ２</a>
<a class="d-n-t" href="https://ほげほげ３">ほげほげ３</a>

投稿2018/12/21 13:44