質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Java

Javaは、1995年にサン・マイクロシステムズが開発したプログラミング言語です。表記法はC言語に似ていますが、既存のプログラミング言語の短所を踏まえていちから設計されており、最初からオブジェクト指向性を備えてデザインされています。セキュリティ面が強力であることや、ネットワーク環境での利用に向いていることが特徴です。Javaで作られたソフトウェアは基本的にいかなるプラットフォームでも作動します。

JavaScript

JavaScriptは、プログラミング言語のひとつです。ネットスケープコミュニケーションズで開発されました。 開発当初はLiveScriptと呼ばれていましたが、業務提携していたサン・マイクロシステムズが開発したJavaが脚光を浴びていたことから、JavaScriptと改名されました。 動きのあるWebページを作ることを目的に開発されたもので、主要なWebブラウザのほとんどに搭載されています。

Q&A

解決済

2回答

6304閲覧

Java(jsoup)によるスクレイピング(javascriptレンダリング後)

ny-au

総合スコア12

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Java

Javaは、1995年にサン・マイクロシステムズが開発したプログラミング言語です。表記法はC言語に似ていますが、既存のプログラミング言語の短所を踏まえていちから設計されており、最初からオブジェクト指向性を備えてデザインされています。セキュリティ面が強力であることや、ネットワーク環境での利用に向いていることが特徴です。Javaで作られたソフトウェアは基本的にいかなるプラットフォームでも作動します。

JavaScript

JavaScriptは、プログラミング言語のひとつです。ネットスケープコミュニケーションズで開発されました。 開発当初はLiveScriptと呼ばれていましたが、業務提携していたサン・マイクロシステムズが開発したJavaが脚光を浴びていたことから、JavaScriptと改名されました。 動きのあるWebページを作ることを目的に開発されたもので、主要なWebブラウザのほとんどに搭載されています。

1グッド

1クリップ

投稿2018/03/09 06:37

Javaとjsoupによるスクレイピングを行っています。
※Java1.8、jsoup-1.10.2、eclipse

ただ、javascriptが組み込まれたページの場合、
jsoup.connect(url).get()にてhtmlデータを取得すると
レンダリング後のhtmlが取得できないため
想定しているスクレイピングが行えません。

レンダリング後の結果取得を色々調べた中で試したものは

javaのjavax.script.ScriptEngineでjavascriptを実行できる環境を用意し、
同じくjavaのjsoupで取得したhtmlデータをjavascriptのdocument?に渡して
innerHTMLにてレンダリング後のhtmlデータを取得し(取得できるらしいので)
javaに結果を返却
ができればよいと試したのですが、

javax.script.ScriptException: ReferenceError: "Document" is not defined

というエラーになりました。

知りたいことは
1.javax.script.ScriptEngineを利用してレンダリング後のhtmlデータを取得できるか?
2.他の方法で容易に実現できる方法があるか?

です。
どうぞ、よろしくお願いします。

A-pZ👍を押しています

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

自己解決

今現時点でJavaScriptのレンダリングについては以下手法で落ち着きました。

Splashを介してJavaScriptレンダリング後の結果を受け取ることにしました。
ただレンダリング後のコードが含まれていない?ような場合もあり
もしかしたらこれが求めていた回答担っていないかもしれませんが、
今のところこれでなんとか解決できそうです。

ありがとうございました。

投稿2018/03/16 16:34

ny-au

総合スコア12

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

まず似たような質問が先日ありましたので共有しておきます。
一旦これ全部目を通してきて下さい、Rubyの部分はまんまJavaに置き換えて考えて意味は通じるはずです。
JavaScriptで変化させた後のサイトをrubyでスクレイピングする方法 - teratail


さて、RubyとJavaの違いとして
Rubyは動的型付け言語なので、JSONの解析が非常に楽ですが、
Javaは静的型付け言語なので、JSONの解析が非常に苦手です。

わたし自身Javaは触れませんので、パーサーの紹介をして〆ます。
[Java] Gsonを使ってJSONをパースする

うーん、楽になったんですかね、結構長いコードのようです。
大変かとは思いますが頑張ってください。

投稿2018/03/09 07:52

miyabi-sun

総合スコア21158

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

ny-au

2018/03/09 08:53

miyabi-sunさん 回答ありがとうございます。 色々と調べていく中でヘッドレスブラウザ~だとか PhamtomJS、Seleniumを利用して~なども情報として目は通してはいましたが、、、 参考にさせていただきます。 やはりjavascriptエンジンを組み込んだレンダリングもこなしてくれる 「素敵な」ライブラリはなさそうですね。 調べてみます。ありがとうございました!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問