Javaとjsoupによるスクレイピングを行っています。
※Java1.8、jsoup-1.10.2、eclipse
ただ、javascriptが組み込まれたページの場合、
jsoup.connect(url).get()にてhtmlデータを取得すると
レンダリング後のhtmlが取得できないため
想定しているスクレイピングが行えません。
レンダリング後の結果取得を色々調べた中で試したものは
javaのjavax.script.ScriptEngineでjavascriptを実行できる環境を用意し、
同じくjavaのjsoupで取得したhtmlデータをjavascriptのdocument?に渡して
innerHTMLにてレンダリング後のhtmlデータを取得し(取得できるらしいので)
javaに結果を返却
ができればよいと試したのですが、
javax.script.ScriptException: ReferenceError: "Document" is not defined
というエラーになりました。
知りたいことは
1.javax.script.ScriptEngineを利用してレンダリング後のhtmlデータを取得できるか?
2.他の方法で容易に実現できる方法があるか?
です。
どうぞ、よろしくお願いします。
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。