質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.46%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

5回答

1278閲覧

[Python][BeautifulSoup] HTMLの本文内に【><】が含まれていると本文をうまく取得できない。

question01

総合スコア11

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2021/06/30 01:36

編集2021/06/30 01:58

◎試したいこと
既にアップロードされているHTMLの本文情報を取得したい

◎起きている問題
Htmlの本文(テキスト)内に顔文字として[(> <)]や[(>_<)]が含まれているとそこの本文がうまく取得できずにエラーを起こすことがあります。

[HTMLコード] <title>hogehoge(> <)</title>

このような文字列があると[(> <)]をタグの記号だと誤認して以下のデータ取得でうまく<title>のデータを取得できません。

[pythonコード] r = requests.get(url) soup = BeautifulSoup(r.content , "html.parser") print(soup.find("title").string)

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答5

0

それはすでにHTMLじゃないので、無理矢理やるとすると、
・手修正で正しいHTMLにしてから処理する
・現れうるパターンが想定できるもの、例えば正規表現で(>.*?<)にマッチする物だけであれば、正規表現置換で前処理して正しいHTMLにする
とかでしょうか。

投稿2021/06/30 02:49

otn

総合スコア84798

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

駄目なマークアップであってもそれなりに読もうとするその振る舞いは、パーザ側が仕様外で善意でやっていることです。
仕様に則ってないものをどう解釈しても、使っている側が文句を言ったりする筋合いはありません。
それが自分の気に入らないものなら自分でパーザを書くしかないでしょう。


ところでhtml.parserは「こう読んでくれたらいい」感じでパーズしているように思います。

質問の

以下のデータ取得でうまく<title>のデータを取得できません。

が曖昧で、客観的でないのですが、結局いまどうなっていて、どうなったらうれしいんでしょう??

plain

1>>> from bs4 import BeautifulSoup 2 3>>> soup = BeautifulSoup('<title>hogehoge(> <)</title>' , "html.parser") 4 5>>> print(soup.find("title").string) 6hogehoge(> <) 7 8>>> print(soup.find("title")) 9<title>hogehoge(&gt; &lt;)</title>

追記

title要素の前に開かれたままで閉じられていないタグが置かれたりしている、とか、そういう壊れ方でしょうか。

plain

1>>> soup = BeautifulSoup('<broken <title>hogehoge(> <)</title>' , "html.parser") 2 3>>> print(soup.prettify()) 4<broken <title=""> 5 hogehoge(&gt; &lt;) 6</broken> 7 8>>> print(soup.find("title")) 9None

htmlパーザで扱うのが無理なぐらい壊れているのであれば、行単位に正規表現でマッチさせるなどの方が現実的解でしょう。


追記

soupやr.contentを自分の目で見て、これがパーズできないのはありえない=HTMLとして問題ない、と思えるのでしょうか。
これはまともにパーズできなくても仕方ない、と思えるのでしょうか。
なんのページなのか、どんなデータなのかが明らかにされない限り他の人に解決できる話ではありません。

投稿2021/06/30 02:14

編集2021/07/01 00:37
quickquip

総合スコア11063

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

quickquip

2021/06/30 02:15

3.7と3.9で試して同じ結果でした。
question01

2021/06/30 02:19

>結局いまどうなっていて、どうなったらうれしいんでしょう?? 1.今やりたいことは<title>の本文が取得したい 2.今後、<title>以外の本文でも[><]が使われた時どのように回避して本文を取得すればいいのか? です。
quickquip

2021/06/30 02:36

今あなたの手元では、何が取得できていて、それがどう不満なのかわかりません。 という話をしています。
quickquip

2021/06/30 02:37

2. は答えました。
question01

2021/06/30 02:48 編集

>今あなたの手元では、何が取得できていて、それがどう不満なのかわかりません。 私が質問した時の状態では<title>のstringを表示すると「None」が表示されてしまいます。 ですので、quickquipさんに答えて頂いた【BeautifulSoup('<title>hogehoge(> <)</title>' , "html.parser")】で解決しました。 しかし、「2.今後、<title>以外の本文でも[><]が使われた時どのように回避して本文を取得すればいいのか?」に関してですが、どのように「parser」の指定をすればよいでしょうか?
quickquip

2021/06/30 03:01

> 私が質問した時の状態では<title>のstringを表示すると「None」が表示されてしまいます。 その現象を質問者さん以外の誰一人として認識してしません。 それだと原因は「title要素の中」ではなくて「title要素の外」にあって、HTMLとして致命的な欠陥があるか、そもそもHTMLでないとかだと思われます。 つまり > このような文字列があると[(> <)]をタグの記号だと誤認して以下のデータ取得でうまく<title>のデータを取得できません が誤った推測でしょう。 他の人が再現できる形でコードを示せていないのが問題です。
guest

0

どうしてもやりたいのであれば以下のようにやるか、やった結果を最後にもとにもどせばよいでしょう。

python

1kao_dict = {"(> <)": "(> <)", "<(`^´)>": "<(`^´)>", "(>口<)": "(>口<)"} 2 3r = requests.get(url) 4replaced_text = r.text 5for before, after in kao_dict.items(): 6 replaced_text = replaced_text.replace(before, after) 7 8soup = BeautifulSoup(replaced_text , "html.parser") 9print(soup.find("title").string)

必要に応じてkao_dict に変改したいパターンを付け加えるのですが、これが面倒です。
また性能も悪いです。

投稿2021/06/30 02:49

ppaul

総合スコア24666

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

それはHTMLが悪いです。きちんとエンティティで書きましょう。

html

1<title>hogehoge(&gt; &lt;)</title>

投稿2021/06/30 01:42

maisumakun

総合スコア145208

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

question01

2021/06/30 02:01

>それはHTMLが悪いです。 そうかもしれません。 しかし、これは私が作ったページではなくほかの人が作ったページなのでコードの修正が行えません。 ですので、このページのコードを修正する以外でデータを取得する方法がしりたいです。
maisumakun

2021/06/30 02:38

単なるテキストとして、自分で<title>や</title>を探して文字列処理するしかないかと思います。
question01

2021/06/30 03:02

r = requests.get(url) で取得し ​r.text から該当文字の[>][<]のバイト文字をreplace したほうがいいんでしょうか?
guest

0

文字コードを使えば良いのでは。

html

1<title>(&gt;&nbsp;&lt;)</title>

&gt;>(大なり)
&nbsp;半角スペース
&lt;<(小なり)

投稿2021/06/30 01:42

編集2021/06/30 01:49
K_3578

総合スコア1282

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

question01

2021/06/30 02:04 編集

説明が足りなくて申し訳ございません。 HTMLのコードはほかの人が作ったものであり、私が修正することはできません。 その上でそのHTML内の本文の情報を取得する方法が知りたいです
K_3578

2021/06/30 02:44

バックエンド側で><を変換する処理書くとかじゃないっすかね。 それかそれを書いた人に書き換えてもらうか。普通に考えてそんな書き方欠陥だし、 その、顔文字?みたいなのをタイトルとするのが書いた人の本旨なら修正すると思いますけど
question01

2021/06/30 03:03

r = requests.get(url) で取得し ​r.text から該当文字の[>][<]のバイト文字をreplace したほうがいいんでしょうか?
K_3578

2021/06/30 03:04

いいんでしょうか?じゃなくてやってみてからにしましょうよ。試してみればどうなるか わかるんだから。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.46%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問