ブログのサイトマップからURLをスクレイピングしたいです。
該当するブログはこちらです
https://yoka-leisure.com/sitemap.xml
python
1import requests 2from bs4 import BeautifulSoup 3 4r = requests.get("https://yoka-leisure.com/sitemap.xml") 5 6soup = BeautifulSoup(r.content, "html.parser") 7 8#ニュース一覧のテキストのみ抽出 9elems=soup.find_all("td",) 10print(elems.get("href")) 11
#教えて欲しいこと
①スクレイピングのfind_allのあとに置くタグはどれをおけばよいかわからないので、ルールを教えて欲しいです。
ここではtdとしていますが、"a"はどうなのか?などルールがわかりません。
②この場合にはなんとコードを書けばいいのでしょうか
よろしくお願いします。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2020/02/13 05:46
2020/02/13 05:54
2020/02/13 05:57
2020/02/13 06:00
2020/02/13 06:45