python-readabilityを使い、style属性を含んだままブログの本文を抽出したい

前提・実現したいこと

python-readabilityというライブラリを使い、style属性を含んだままHTMLタグと本文を抽出したいのですがうまくいきません。
class属性やaタグのhref属性などは残っているのですがstyle属性はなぜか消えてしまうのです。
『python-readability style attribute』等調べてみましたが、解決に至るようなものはヒットしませんでした。
もしpython-readabilityで難しければ、他にブログからHTMLタグを全て維持したまま本文を抽出できる別のライブラリ等を教えていただけると幸いです。

ソースコード

python
1import requests
2from readability.readability import Document
3response = requests.get('http://********.com')
4doc = Document(response.text)
5print(doc.summary())

html
1<!-- http://********.com -->
2<!DOCTYPE html>
3<head>
4  <title>Example</title>
5</head>
6<body>
7  <div>本文以外の要素</div>
8  <!-- 本文 -->
9  <p class="dummy" style="font-weight: 14px; color: red;">ダミーテキストダミーテキストダミーテキスト</p>
10  <!-- 本文 -->
11  <div>本文以外の要素</div>
12</body>
13</html>

結果

html
1<p class="dummy">ダミーテキストダミーテキストダミーテキスト</p>

実現したい結果

html
1<p class="dummy" style="font-weight: 14px; color: red;">ダミーテキストダミーテキストダミーテキスト</p>

試したこと

doc.html()など、別のメソッドを試してみましたがうまくいきませんでした。（Noneと返される）

行動規範の内容に同意します

回答2件

https://github.com/buriy/python-readability/blob/master/readability/readability.py#L178
意図的に取り除かれて、オプションもありませんね。

よく見かけるものとしては、BeautifulSoupとかでしょうか。

python
1import requests
2from bs4 import BeautifulSoup
3
4url = ''
5response = requests.get(url)
6doc = BeautifulSoup(response.text, 'lxml')
7print(doc.body.p)

投稿2018/02/19 05:28

mkgrei

総合スコア8560

wotaku

2018/02/19 10:38

回答ありがとうございます。 BeautifulSoupですとあらゆる形式のブログを扱った時に本文の抽出が難しくなってしまいます。

行動規範の内容に同意します

ベストアンサー

lxmlが利用できない環境しか手元にないため、ヒントだけ。

https://github.com/buriy/python-readability/blob/master/readability/cleaners.py

で、styleはbad_attrsに指定されているためにクリーンナップ対象として取り除かれるようです。

readability.cleaners.htmlstripを動的に書き換えて(モンキーパッチングして)やれば、期待する動作は実現できると思います。

投稿2018/02/19 00:27

YouheiSakurai

総合スコア6142

wotaku

2018/02/19 10:38

回答ありがとうございます。 GitHubの使い方をイマイチ理解しておらずファイル一覧をチェックするという作業が完全に抜けておりました…。 site_packages内にあるcleaners.pyファイルを直接書き換えるという方法では上手くいったのですが、動的な書き換えというものがよくわかりません。試しに　from readability.cleaners import bad_attrs 　bad_attrs = ['width', 'height', 'background[-a-z]*', 'on*'] 　from readability.readability import Document とやってみましたがだめでした。 "動的な書き換え"という部分についてもう少し詳しく教えていただけると幸いです。

YouheiSakurai

2018/02/19 10:58

import readability.cleaners readability.cleaners.htmlstrip = re.compile("<" # open "([^>]+) " # prefix "(?:%s) *" % ('|'.join(bad_attrs),) + # undesirable attributes '= *(?:%s|%s|%s)' % (non_space, single_quoted, double_quoted) + # value "([^>]*)" # postfix ">" # end , re.I) みたいな事を意図してました。完動コードを提示できなくて申し訳ないのですが。

mkgrei

2018/02/19 11:03

https://qiita.com/monoquro/items/ff1f862eb37ee2d8c389 こういうのが参考になるのでしょうか。

wotaku

2018/02/19 11:16

YouheiSakurai様、回答ありがとうございます。こういった記法があるのですね、非常に参考になりました。これらの知識を踏まえて自分なりに試行錯誤してみます。 mkgrei様、回答ありがとうございます。モンキーパッチとはこのようなものなのですね。想像以上に複雑で何やら難しそうです…。当方の勉強不足が否めない状態ですのでPythonに関する構文等について改めて勉強してみます。ご回答くださった方々本当にありがとうございました。

行動規範の内容に同意します

あなたの回答