HTMLタグの除去Python

Pythonでhtmlのタグなど、普通に読む際に不要なものを除去するコードをなんとなく繋げてみたのですが、なぜか処理されません。

python
1import re
2import urllib2
3
4# htmlをurlから取得
5fp = urllib2.urlopen('取得するurl')
6html = fp.read().decode('shift_jis')
7print html
8fp.close()
9
10# タグなどの除去
11p = re.compile(r"<[^>]*?>")
12tag_str = html
13p.sub("", tag_str)
14

htmlの取得まではうまくいくのですが、除去は実行されてないように見えます。
実行環境はMacOSです。

どなたか改善していただけないでしょうか

行動規範の内容に同意します

回答4件

普通に

Python
1import re
2import urllib2
3
4# htmlをurlから取得
5fp = urllib2.urlopen('取得するurl')
6html = fp.read().decode('shift_jis')
7print html
8fp.close()
9
10# タグなどの除去
11# 以下を変更
12p = re.sub('<.*?>', '', html)

では駄目ですか?

投稿2022/04/30 15:22

退会済みユーザー

総合スコア0

もしかして

PHP
1print p.sub("", tag_str)

PythonのStringはimmutable、変更不可です。
関数にStringオブジェクトを渡して書き換えてもらうことはできません。

投稿2015/08/20 06:09

ikeyan

総合スコア136

from HTMLParser import HTMLParser

class MLStripper(HTMLParser):

def __init__(self):
    self.reset()
    # stripしたテキストを保存するバッファー
    self.fed = []

def handle_data(self, d):
    # 任意のタグの中身のみを追加していく
    self.fed.append(d)

def get_data(self):
    # バッファーを連結して返す
    return ''.join(self.fed)

def strip_tags(html):
s = MLStripper()
s.feed(html)
return s.get_data()

投稿2015/08/19 04:04

piotcard

総合スコア69

HTMLタグの除去に正規表現を使うのは中々難しいのであまりオススメできません。HTML自体は曖昧な文法を許容するため、<li>など開始タグのみで記述されるようなこともあるからです。HTMLからデータを取り出す事をスクレイピングといいますが、Pythonにもいくつかスクレイピング用のライブラリがあるので、そちらを導入してみてはどうでしょう？下記の参考サイトにいくつか紹介されており、かんたんな使い方もまとまっているので一読してみてください。

参考: Pythonでクローリング・スクレイピングに使えるライブラリいろいろ

投稿2015/08/18 00:15

退会済みユーザー

総合スコア0