[Python][BeautifulSoup] HTMLの本文内に【><】が含まれていると本文をうまく取得できない。

◎試したいこと
既にアップロードされているHTMLの本文情報を取得したい

◎起きている問題
Htmlの本文（テキスト）内に顔文字として[(> <)]や[(>_<)]が含まれているとそこの本文がうまく取得できずにエラーを起こすことがあります。

[HTMLコード]
<title>hogehoge(> <)</title>

このような文字列があると[(> <)]をタグの記号だと誤認して以下のデータ取得でうまく<title>のデータを取得できません。

[pythonコード]
r = requests.get(url) 
soup = BeautifulSoup(r.content , "html.parser")
print(soup.find("title").string)

行動規範の内容に同意します

回答5件

それはすでにHTMLじゃないので、無理矢理やるとすると、
・手修正で正しいHTMLにしてから処理する
・現れうるパターンが想定できるもの、例えば正規表現で(>.*?<)にマッチする物だけであれば、正規表現置換で前処理して正しいHTMLにする
とかでしょうか。

投稿2021/06/30 02:49

otn

総合スコア85901

駄目なマークアップであってもそれなりに読もうとするその振る舞いは、パーザ側が仕様外で善意でやっていることです。
仕様に則ってないものをどう解釈しても、使っている側が文句を言ったりする筋合いはありません。
それが自分の気に入らないものなら自分でパーザを書くしかないでしょう。

ところでhtml.parserは「こう読んでくれたらいい」感じでパーズしているように思います。

質問の

以下のデータ取得でうまく<title>のデータを取得できません。

が曖昧で、客観的でないのですが、結局いまどうなっていて、どうなったらうれしいんでしょう??

plain
1>>> from bs4 import BeautifulSoup
2
3>>> soup = BeautifulSoup('<title>hogehoge(> <)</title>' , "html.parser")
4
5>>> print(soup.find("title").string)
6hogehoge(> <)
7
8>>> print(soup.find("title"))
9<title>hogehoge(&gt; &lt;)</title>

追記

title要素の前に開かれたままで閉じられていないタグが置かれたりしている、とか、そういう壊れ方でしょうか。

plain
1>>> soup = BeautifulSoup('<broken <title>hogehoge(> <)</title>' , "html.parser")
2
3>>> print(soup.prettify())
4<broken <title="">
5 hogehoge(&gt; &lt;)
6</broken>
7
8>>> print(soup.find("title"))
9None

htmlパーザで扱うのが無理なぐらい壊れているのであれば、行単位に正規表現でマッチさせるなどの方が現実的解でしょう。

追記

soupやr.contentを自分の目で見て、これがパーズできないのはありえない=HTMLとして問題ない、と思えるのでしょうか。
これはまともにパーズできなくても仕方ない、と思えるのでしょうか。
なんのページなのか、どんなデータなのかが明らかにされない限り他の人に解決できる話ではありません。

投稿2021/06/30 02:14

編集2021/07/01 00:37

quickquip

総合スコア11235

quickquip

2021/06/30 02:15

3.7と3.9で試して同じ結果でした。

question01

2021/06/30 02:19

＞結局いまどうなっていて、どうなったらうれしいんでしょう?? 1.今やりたいことは<title>の本文が取得したい 2.今後、<title>以外の本文でも[><]が使われた時どのように回避して本文を取得すればいいのか？です。

quickquip

2021/06/30 02:36

今あなたの手元では、何が取得できていて、それがどう不満なのかわかりません。という話をしています。

quickquip

2021/06/30 02:37

2. は答えました。

question01

2021/06/30 02:48 編集

>今あなたの手元では、何が取得できていて、それがどう不満なのかわかりません。私が質問した時の状態では<title>のstringを表示すると「None」が表示されてしまいます。ですので、quickquipさんに答えて頂いた【BeautifulSoup('<title>hogehoge(> <)</title>' , "html.parser")】で解決しました。しかし、「2.今後、<title>以外の本文でも[><]が使われた時どのように回避して本文を取得すればいいのか？」に関してですが、どのように「parser」の指定をすればよいでしょうか？

quickquip

2021/06/30 03:01

> 私が質問した時の状態では<title>のstringを表示すると「None」が表示されてしまいます。その現象を質問者さん以外の誰一人として認識してしません。それだと原因は「title要素の中」ではなくて「title要素の外」にあって、HTMLとして致命的な欠陥があるか、そもそもHTMLでないとかだと思われます。つまり > このような文字列があると[(> <)]をタグの記号だと誤認して以下のデータ取得でうまく<title>のデータを取得できませんが誤った推測でしょう。他の人が再現できる形でコードを示せていないのが問題です。

行動規範の内容に同意します

どうしてもやりたいのであれば以下のようにやるか、やった結果を最後にもとにもどせばよいでしょう。

python
1kao_dict = {"(> <)": "(＞ ＜)", "<(｀^´)>": "＜(｀^´)＞", "(>口<)": "(＞口＜)"}
2
3r = requests.get(url) 
4replaced_text = r.text
5for before, after in kao_dict.items():
6    replaced_text = replaced_text.replace(before, after)
7
8soup = BeautifulSoup(replaced_text , "html.parser")
9print(soup.find("title").string)

必要に応じてkao_dict に変改したいパターンを付け加えるのですが、これが面倒です。
また性能も悪いです。

投稿2021/06/30 02:49

ppaul

総合スコア24670

それはHTMLが悪いです。きちんとエンティティで書きましょう。

html
1<title>hogehoge(&gt; &lt;)</title>

投稿2021/06/30 01:42

maisumakun

総合スコア146018

question01

2021/06/30 02:01

＞それはHTMLが悪いです。そうかもしれません。しかし、これは私が作ったページではなくほかの人が作ったページなのでコードの修正が行えません。ですので、このページのコードを修正する以外でデータを取得する方法がしりたいです。

maisumakun

2021/06/30 02:38

単なるテキストとして、自分で<title>や</title>を探して文字列処理するしかないかと思います。

question01

2021/06/30 03:02

r = requests.get(url) で取得し r.text から該当文字の[>][<]のバイト文字をreplace したほうがいいんでしょうか？

行動規範の内容に同意します

文字コードを使えば良いのでは。

html
1<title>(&gt;&nbsp;&lt;)</title>

>は>(大なり)
 は半角スペース
<は<(小なり)

投稿2021/06/30 01:42

編集2021/06/30 01:49

K_3578

総合スコア1282

question01

2021/06/30 02:04 編集

説明が足りなくて申し訳ございません。 HTMLのコードはほかの人が作ったものであり、私が修正することはできません。その上でそのHTML内の本文の情報を取得する方法が知りたいです

K_3578

2021/06/30 02:44

バックエンド側で><を変換する処理書くとかじゃないっすかね。それかそれを書いた人に書き換えてもらうか。普通に考えてそんな書き方欠陥だし、その、顔文字？みたいなのをタイトルとするのが書いた人の本旨なら修正すると思いますけど

question01

2021/06/30 03:03

r = requests.get(url) で取得し r.text から該当文字の[>][<]のバイト文字をreplace したほうがいいんでしょうか？

K_3578

2021/06/30 03:04

いいんでしょうか？じゃなくてやってみてからにしましょうよ。試してみればどうなるかわかるんだから。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

[Python][BeautifulSoup] HTMLの本文内に【><】が含まれていると本文をうまく取得できない。

関連した質問