Javascriptを使ったウェブページの途中からスクレイピングができなくなる

Question

Python 3.4です。 Javascriptを使ったウェブページのスクレイピングをしようとしているのですが、ページ途中から抽出ができなくなりました。サンプルURL [https://www.crd.york.ac.uk/prospero/display_record.php?RecordID=26939](https://www.crd.york.ac.uk/prospero/display_record.php?RecordID=26939) Stage of review の次の

を抽出しようとしています。 Countryまでは抽出できるのですが、なぜかStage of review以下の全てが読めず、空白のみが返ってきます。 ```ここに言語を入力 import lxml.html from selenium import webdriver url="https://www.crd.york.ac.uk/prospero/display_record.php?RecordID=26939" driver = webdriver.PhantomJS(executable_path='C:/Users/XX/phantomjs-2.1.1-windows/bin/phantomjs.exe') driver.get(url) root = lxml.html.fromstring(driver.page_source) country = root.xpath('string(//h1[contains(text(),"Country")]/following-sibling::p[1])') #ここから上手く動かない stage= root.xpath('string(//h1[contains(text(),"Stage of review")][1]/following-sibling::p[1])') driver.quit() ```

Accepted Answer

不思議ですね。
うまくいかないことを再現しました。

Stage of reviewが2以上マッチングするのでCountryよりも凝ったことをしているようですね。
はっきりとはわかりませんが、PhantomJSのバグかもしれません。
最近PhantomJSは廃れ始めているようなのです。
https://www.infoq.com/jp/news/2017/04/Phantomjs-future-uncertain

実はheadlessの操作はChromeでできるようになりました。
そこで、Chromeのwebdriverを使ったところ、問題なく実行されました。

信条上の都合でGoogle Chromeは使用できないのでないならば、そちらに切り替えることをおすすめします。
これ以上はPhantomJSのプロにおまかせです。