BeautifulSoupでのスクレイピングについて

Question

### beautifulsoupでlinkタグの中身を取得したいスクレイピングの練習として、とあるRSSのデータの取得を行っています。その中で、で囲まれている部分のテキストがどうしても取得できません。　対象ページのHTML構造下記からitem内のテキストを順に取得しようとしています。 ``` html タイトル https://hogefuga.php hoge ``` pythonのソースコード (本来はrequestsでhtmlを取得してきていますが、冗長となるため省略いたしました。) ``` python # -*- coding:utf-8 -*- from bs4 import BeautifulSoup s = 'タイトルhttps://hogefuga.phphoge' soup = BeautifulSoup(s, "lxml") print(soup.link) ``` ### 発生している問題・エラーメッセージ上記のコードで実行したところ、Noneが返ってきます。 ### 試したこと soupをprintしたところ、 ``` print(soup) >> タイトルhttps://hogefuga.phphoge ``` なぜかもともともhtmlのテキストではで囲まれている部分が、に置き換わってしまい、結果的に ``` soup.link >> None ``` となっているようです。なぜ書き換わってしまうのか、まったくわからず投稿いたしました。何卒宜しくお願い致します。

Accepted Answer

link タグは空タグなので、HTML の規約上、コンテンツは持たないはずです。
なので、DOMツリー上は以下のように解釈されます。

item
├── title
├── link
├── NavigateString
└── description

もし<link>https://hogefuga.php</link> のようにしているサイトがあるのだとしたら、そのサイトの HTML は間違っています。

mozilla.org

Permitted content None, it is an empty element.

from bs4 import BeautifulSoup

s = '<item><title>タイトル</title><link>https://hogefuga.php</link><description>hoge</description></item>'
soup = BeautifulSoup(s, "lxml")
print(soup.link.next_sibling)
# https://hogefuga.php

訂正

質問を見てなかったのですが、RSS なのでパースするのは HTML ではなく、XML ですね。
その場合、パーサーはXML用のものを指定してください。

from bs4 import BeautifulSoup

s = '<item><title>タイトル</title><link>https://hogefuga.php</link><description>hoge</description></item>'
soup = BeautifulSoup(s, "lxml-xml")
print(soup.link)  # <link>https://hogefuga.php</link>

公式ドキュメントの Installing a parser の欄を参照してください。

beautifulsoupでlinkタグの中身を取得したい

発生している問題・エラーメッセージ

試したこと

訂正

関連した質問