pythonスクレイピングでブログからURLを引っ張る

ブログのサイトマップからURLをスクレイピングしたいです。
該当するブログはこちらです
https://yoka-leisure.com/sitemap.xml

python
1import requests
2from bs4 import BeautifulSoup
3
4r = requests.get("https://yoka-leisure.com/sitemap.xml")
5
6soup = BeautifulSoup(r.content, "html.parser")
7
8#ニュース一覧のテキストのみ抽出
9elems=soup.find_all("td",)
10print(elems.get("href"))
11

#教えて欲しいこと
①スクレイピングのfind_allのあとに置くタグはどれをおけばよいかわからないので、ルールを教えて欲しいです。
ここではtdとしていますが、"a"はどうなのか？などルールがわかりません。

②この場合にはなんとコードを書けばいいのでしょうか

よろしくお願いします。

行動規範の内容に同意します

回答1件

ベストアンサー

sitemap.xml は XML であり、HTML でないので、BeautifulSoup のパーサーには "xml" を指定してください。
XML を見ると、URL 一覧は、url タグ > loc タグ以下にあるとわかるので、以下のようにとってこれます。

python
1import requests
2from bs4 import BeautifulSoup
3
4res = requests.get("https://yoka-leisure.com/sitemap.xml")
5
6soup = BeautifulSoup(res.content, "xml")
7
8urls = []
9for url in soup.find_all("url"):
10    urls.append(url.loc.string)
11print(url)

投稿2020/02/11 07:41

tiitoi

総合スコア21956

loveapple2002

2020/02/13 05:46

回答ありがとうございます。そもそもXMLというものとHTMLというものの理解ができていませんでした。追加で伺いたいのですが、XMLはどこでみることができますか？ HTMLはGoogle　chromeの検証から見ることができています

tiitoi

2020/02/13 05:54

右クリック → ページのソースを表示で見れます。検証で見れるのは、XML をブラウザで見やすいように HTML に変換したものなので、生の XML ではありません。

loveapple2002

2020/02/13 05:57

ありがとうございます！見れました！ for url in soup.find_all("url"): urls.append(url.loc.string) この部分の urls.append(url.loc.string)がどういう意味か教えていただけますでしょうか appendなのでurlsのリストに追加するという意味だとはおもうのですが

tiitoi

2020/02/13 06:00

XML のソースを見るとわかりますが、URL は、 url タグの子要素 loc タグの値として入っています。なので、url.loc で loc タグにアクセスし、.string 属性でその値である URL を取得して、リストに追加しています。

loveapple2002

2020/02/13 06:45

ありがとうございます！

行動規範の内容に同意します