Pythonでhtmlのタグなど、普通に読む際に不要なものを除去するコードをなんとなく繋げてみたのですが、なぜか処理されません。
python
1import re 2import urllib2 3 4# htmlをurlから取得 5fp = urllib2.urlopen('取得するurl') 6html = fp.read().decode('shift_jis') 7print html 8fp.close() 9 10# タグなどの除去 11p = re.compile(r"<[^>]*?>") 12tag_str = html 13p.sub("", tag_str) 14
htmlの取得まではうまくいくのですが、除去は実行されてないように見えます。
実行環境はMacOSです。
どなたか改善していただけないでしょうか
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。