いつもお世話になっております。
表題について質問させていただきます。
あるサイトのスクレイピングをしているのですが、うまく抽出することができません。
Python
1from bs4 import BeautifulSoup 2import requests 3 4response = requests.get("https://たーげっと/").text 5#print (response.text) 6soup = BeautifulSoup(response, 'html.parser') 7print(soup.prettify()) 8 9page_tags = soup.find_all('a', class_='d-n-t') 10for tag in real_page_tags: 11 print(tag) 12
上記サイトをスクレイピングした結果が下記です。
<a class="devsite d-n-t gc-a " data-category="SWCE" data-label="RT: S" href="https://hogehoge/"> AAA </a> <a class="d-n-t gc-a " data-category="SWCE" data-label="RT: R" href="https://hogehoge/"> BBB </a> <a class="d-n-t gc-a " data-category="SWCE" data-label="RT: A" href="https://hogehoge/"> CCC </a> <a class="d-n-t" href="https://title">タイトル</a> <a class="d-n-t" href="https://ほげほげ1/">ほげほげ1</a> <a class="d-n-t" href="https://ほげほげ2/">ほげほげ2</a> <a class="d-n-t" href="https://ほげほげ3">ほげほげ3</a>
class名が"d-n-t"となっているもののみを抽出したいのですが、異なるものも抽出されてしまいました。
■class名が完全一致したもののみ抽出する
■特定のタグ名をふくむものは除外する
のようなことができれば実現できるとおもうのですが、どのようにすればすればいいでしょうか。
どうぞよろしくお願い致します。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/12/21 13:57
2018/12/21 14:16
2018/12/21 14:41