取得方法
Python
1from urllib.request import urlopen 2from bs4 import BeautifulSoup 3 4body = BeautifulSoup(urlopen('http://example.com/'), 'lxml').find('body').text 5
余計なもの
- javascriptやHTMLのコメント(これは普通?)
- javascriptのコード
- XML的なの(
![CDATA[<greeting>Hello,world!</greeting>]]>
など)
解決策は・・・
BeautifulSoupで<script>
タグを削除したり、正規表現でごっそり削るしか無いのでしょうか・・・?
Selenium+PhantomJSにて行った場合も同様に余計なものが含まれてしまいます。
単純にコンテンツのみがほしいのですが、ほかに解決策はありますでしょうか。
お願いします。

回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2017/06/25 11:24