selenium、画面の読み込みが遅いサイトの場合、取得ができない

seleniumを使い、xpathを利用して、スクレイピングを行なっていました。
driver.find_elements_by_xpath("~~~")
上記のようなコードでスクレイピングを行なっていたのですが、画面の読み込みが遅いサイトの場合、サイトが読み込まれていない部分が取得ができない。という事態が発生してしまいました。

このサイトで行なっていたのですが、私のwifiのせいかどんどん上から表示されていく。という形のようです。したがって表示されていない部分はxpathの取得要素の中に入っていませんでした。

そこで質問なのですが、xpathを利用して、このようなサイトで全ての要素を取得する方法はありますでしょうか？

色々調べたのですが、サイトの都合上以下のやり方では出来ませんでした。

html = urllib2.urlopen(url)
dom = lxml.html.fromstring(html.read())

for o2 in dom.xpath(u"//a[text()='xxx']/@href"):
  bbb.append(o2)

以下は、実際のスクレイピングのコードです。

from selenium import webdriver
import chromedriver_binary
URL = "https://komyojikyozo.web.fc2.com/dnskv/dn01/dn01c01.htm"
TIMEOUT = 10
driver = webdriver.Chrome()
driver.implicitly_wait(TIMEOUT)
driver.get(URL)

frame = driver.find_element_by_name("frSheet")
driver.switch_to.frame(frame)

elems = driver.find_elements_by_xpath("(//tr[preceding-sibling::*[1][td/font[contains(text(),'訳文')]]])")

for i in range(len(elems)):
    print(elems[i].text)

出力

かの阿羅漢にして正等覚者（ブッダ）たる世尊に礼拝いたします
『長部〔経典〕』
「戒蘊篇」なる聖典
「梵網経」（『長部』1）
【遍歴行者の物語】
このように私は聞いた。

行動規範の内容に同意します

回答2件

implicitly_waitを指定していることが原因です。
要するにelements_by_xpathには10秒以内に表示できたものしか入りません。

sleepを入れてやるかwebdriverwaitで処理するといいと思います。
presence_of_all_elements_locatedと言うのを指定してやると良いでしょう。

このくらいのページだったらネット環境の改善を真っ先に優先すべきかとは思いますが。。。

投稿2020/04/02 14:55

shirai

総合スコア1290

ninginnn

2020/04/03 06:41

なるほど！ありがとうございます。色々と勉強になりました。 presence_of_all_elements_locatedを指定することで、ページが読み込まれるまで待っていてくれる。 implicitly_waitについても理解できました。ありがとうございます。

行動規範の内容に同意します

ページソースを見たら軽そうなページが見つかったのでURLを書き換えました。
find_elementsで取得したelmsはforに組み込むだけで直接個々のelementを取り出せます。

Sample

Python
1from selenium import webdriver
2from webdriver_manager.chrome import ChromeDriverManager
3
4URL = "https://komyojikyozo.web.fc2.com/dnskv/dn01/dn01c01.files/sheet001.htm"
5TIMEOUT = 10
6driver = webdriver.Chrome(ChromeDriverManager().install())
7driver.implicitly_wait(TIMEOUT)
8driver.get(URL)
9
10frame = driver.find_elements_by_name("frSheet")
11if frame:
12    driver.switch_to.frame(frame[0])
13
14elems = driver.find_elements_by_xpath("(//tr[preceding-sibling::*[1][td/font[contains(text(),'訳文')]]])")
15
16for elm in elems:
17    print(elm.text)

Output

txt
1かの阿羅漢にして正等覚者（ブッダ）たる世尊に礼拝いたします
2『長部〔経典〕』
3「戒蘊篇」なる聖典
4(中略)
5『かくゆえに、これは真実である。かくゆえに、これは如実である。そしてこれ（この見解）は我々にある、そしてまたこれ（この見解）は我々に存在する』と。
6

追記

このようなサイトで全ての要素を取得する方法はありますでしょうか？

例えばfind_elementsで要素を一度取得して、3秒後に再取得、
前後で取得されたelement数に違いがないか比較して判断することもできそうです。

投稿2020/03/29 02:05

編集2020/03/29 02:17

退会済みユーザー

総合スコア0

ninginnn

2020/04/03 06:42

ありがとうございますm(__)m 追記のやり方は思い浮かびませんでした。勉強になりました。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

selenium、画面の読み込みが遅いサイトの場合、取得ができない

Sample

Output

追記

関連した質問