質問編集履歴

問題をわかりやすくしました

2017/02/28 14:53

投稿

RyuSA

スコア131

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,14 +1,14 @@
-###Pythonでスクレイピングしたい！
+###PythonでのWebスクレイピング
-PythonモジュールのBeautifulSoupやseleniumを用いてWebスクレイピングをやりたい。
 簡単なWebサイトのスクレイピングはできたものの、JavascriptでレンダリングされているようなWebページでのスクレイピングで苦戦中です。
-###発生している問題・エラーメッセージ
+###発生している問題
 今、某魚拓サイトをスクレイピングしようとしています。
 挑戦中のWebページは以下のページです。(スクレイピング先の内容に特に意味はないです……)
 ページ：[http://megalodon.jp/2014-0421-0310-13/sucrose.hatenablog.com/entry/2014/04/21/000909](http://megalodon.jp/2014-0421-0310-13/sucrose.hatenablog.com/entry/2014/04/21/000909)
-本当は、該当Webページの<iframe ...> (onloadで書き込まれる) </iframe>の中身を取ってきたいのですが、素直にソースコードを持ってきてもダメなようです。(以下のソースコード参照)
+該当Webページの<iframe ...> (魚拓部分) </iframe>の中身を取ってきたいのですが、素直にソースコードを持ってきてもダメなようです。
+具体的には、以下のソースのように持ってきても<iframe...></iframe>と中身が入っていない状態で返ってきてしまうようです。
 上手いやり方を知っている方、ご教授願いませんか？
@@ -21,6 +21,7 @@
 url = "http://megalodon.jp/2014-0421-0310-13/sucrose.hatenablog.com/entry/2014/04/21/000909"
 driver = webdriver.PhantomJS()
 driver.get(url)
+// driver.page_sourceからすでにiframe内にはないようです
 htmls = lxml.html.fromstring(driver.page_source)
 sources = htmls.cssselect('iframe')
 for source in sources:

200 317 1205

不要なものを削除

2017/02/28 14:53

投稿

RyuSA

スコア131

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -8,7 +8,7 @@
 ページ：[http://megalodon.jp/2014-0421-0310-13/sucrose.hatenablog.com/entry/2014/04/21/000909](http://megalodon.jp/2014-0421-0310-13/sucrose.hatenablog.com/entry/2014/04/21/000909)
-本当は、該当Webページの<iframe ...> (onloadで書き込まれる) </iframe>の中身を取ってきたいのですが、どうやらこの中身はJavaScript制御されているようで、素直にソースコードを持ってきてもダメなようです
+本当は、該当Webページの<iframe ...> (onloadで書き込まれる) </iframe>の中身を取ってきたいのですが、素直にソースコードを持ってきてもダメなようです。(以下のソースコード参照)
 上手いやり方を知っている方、ご教授願いませんか？
@@ -25,11 +25,4 @@
 sources = htmls.cssselect('iframe')
 for source in sources:
     print(source.text)
-```
+```
-###試したこと
-最初はrequestsモジュールを用いていましたが、Javascriptレンダリングには対応できていないと聞いたので
-ヘッドレスブラウザのphantomjsを用いてやってみようとしていました。
-###補足情報(言語/FW/ツール等のバージョンなど)
-Python3.6.0

200 317 1205