前提・実現したいこと
python-readabilityというライブラリを使い、style属性を含んだままHTMLタグと本文を抽出したいのですがうまくいきません。
class属性やaタグのhref属性などは残っているのですがstyle属性はなぜか消えてしまうのです。
『python-readability style attribute』等調べてみましたが、解決に至るようなものはヒットしませんでした。
もしpython-readabilityで難しければ、他にブログからHTMLタグを全て維持したまま本文を抽出できる別のライブラリ等を教えていただけると幸いです。
ソースコード
python
1import requests 2from readability.readability import Document 3response = requests.get('http://********.com') 4doc = Document(response.text) 5print(doc.summary())
html
1<!-- http://********.com --> 2<!DOCTYPE html> 3<head> 4 <title>Example</title> 5</head> 6<body> 7 <div>本文以外の要素</div> 8 <!-- 本文 --> 9 <p class="dummy" style="font-weight: 14px; color: red;">ダミーテキストダミーテキストダミーテキスト</p> 10 <!-- 本文 --> 11 <div>本文以外の要素</div> 12</body> 13</html>
結果
html
1<p class="dummy">ダミーテキストダミーテキストダミーテキスト</p>
実現したい結果
html
1<p class="dummy" style="font-weight: 14px; color: red;">ダミーテキストダミーテキストダミーテキスト</p>
試したこと
doc.html()など、別のメソッドを試してみましたがうまくいきませんでした。(Noneと返される)
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/02/19 10:38