質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

0回答

1767閲覧

webスクレイピングした際、javascriptやcssのソースも一緒の取れてしまう

kurosuke___

総合スコア217

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2016/12/02 06:52

###前提・実現したいこと

Python3.5, BeautifulSoup4, selenium, PhantomJSを使ってbodyタグ内のテキストをすべて取得するような処理をしたのですが、JavascriptやCSSのソースコードも一緒に取得してしまいます。それらは必要ないので、テキストのみで取得、または取得後の処理でテキストのみにできる方法がありましたら教えてください。
取得する際の主なソースは以下の通りです。

python

1driver.get(url) 2html = driver.page_source 3soup = BeautifulSoup(html, 'lxml') 4html_new = soup.prettify() 5soup = BeautifulSoup(html_new, 'lxml') 6 7all_text += soup.body.get_text()

いらないモノはこんな感じです

javascript

1 window._pt_lt = new Date().getTime(); 2 window._pt_sp_2 = []; 3 _pt_sp_2.push('setAccount,7954951e'); 4 var _protocol = (("https:" == document.location.protocol) ? " https://" : " http://"); 5 (function() { 6 var atag = document.createElement('script'); atag.type = 'text/javascript'; atag.async = true; 7 atag.src = _protocol + 'js.ptengine.jp/pta.js'; 8 var stag = document.createElement('script'); stag.type = 'text/javascript'; stag.async = true; 9 stag.src = _protocol + 'js.ptengine.jp/pts.js'; 10 var s = document.getElementsByTagName('script')[0]; 11 s.parentNode.insertBefore(atag, s);s.parentNode.insertBefore(stag, s); 12 })(); 13 14

CSS

1{float:none;clear:none;margin:0;padding:0;border:0 solid;border-radius:0;font-size:100%;font-weight:normal;font-style:normal;text-indent:0;letter-spacing:0;word-spacing:0;text-transform:none;vertical-align:baseline;}#uftMain div{background-image:url(https://s.yimg.jp/yui/jp/uft/2.0.1/img/uftChnk.png);background-repeat:no-repeat;}

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問