回答編集履歴

追記

2021/07/01 00:37

投稿

スコア11357

answer CHANGED Viewed

@@ -42,4 +42,12 @@
 None
 ```
-htmlパーザで扱うのが無理なぐらい壊れているのであれば、行単位に正規表現でマッチさせるなどの方が現実的解でしょう。
+htmlパーザで扱うのが無理なぐらい壊れているのであれば、行単位に正規表現でマッチさせるなどの方が現実的解でしょう。
+----
+追記
+soupやr.contentを自分の目で見て、これがパーズできないのはありえない=HTMLとして問題ない、と思えるのでしょうか。
+これはまともにパーズできなくても仕方ない、と思えるのでしょうか。
+なんのページなのか、どんなデータなのかが明らかにされない限り他の人に解決できる話ではありません。

追記

2021/07/01 00:36

投稿

スコア11357

answer CHANGED Viewed

@@ -23,4 +23,23 @@
 >>> print(soup.find("title"))
 <title>hogehoge(&gt; &lt;)</title>
-```
+```
+----
+追記
+title要素の前に開かれたままで閉じられていないタグが置かれたりしている、とか、そういう壊れ方でしょうか。
+```plain
+>>> soup = BeautifulSoup('<broken <title>hogehoge(> <)</title>' , "html.parser")
+>>> print(soup.prettify())
+<broken <title="">
+ hogehoge(&gt; &lt;)
+</broken>
+>>> print(soup.find("title"))
+None
+```
+htmlパーザで扱うのが無理なぐらい壊れているのであれば、行単位に正規表現でマッチさせるなどの方が現実的解でしょう。