pythonで要素を.click()した後に読み込まれるjavascriptの内容を取得したい

前提・実現したいこと

pythonでwebサイトに記載されているURLを抽出するシステムを作っていますが、一部の要素が取り込めず頭を抱えています。
具体的には

webサイトを開く
↓
id要素をクリック(javascriptでURLが記載された要素が読み込まれる)
↓
javascriptで読み込まれた要素からURLを抽出

ということをしたいのですが、javascriptで読み込まれた要素そのものが抽出できません。

該当のソースコード

driver.get(https://~)
driver.find_element_by_css_selector('#id').click() #id要素をクリックするとjavascriptで要素が読み込まれる
html = driver.page_source
soup = bs4.BeautifulSoup(html, "html.parser")  #soup内にjavascriptで読み込まれた要素が存在しない

試したこと

一番解決に近そうなのはこちらですが、うまくいきませんでした。
https://qiita.com/Azunyan1111/items/b161b998790b1db2ff7a
JavaScriptによる描画に対応する

こちらのサイトはページにアクセスしてから必要な情報が描画される場合であり、ページを読み込んだ後クリックにより必要な情報が描画されるのとは異なるからです。

.click()をした後にdriverにページ情報を再取得させればいいのかな、と思うのですが解決方法が浮かびません。
詳しい方、ご教示いただければと存じます。

frederick_1974

2020/01/23 00:26

可能性を確認するための質問なのですが、・「html = driver.page_source」を実行しているのは、JavaScriptによる読み込みが完了するための時間を確保してからの実行なのでしょうか。・取得したhtmlがiframeで分割されているということはないでしょうか？

dameo

2020/01/23 01:35

とりあえずタグにseleniumを入れてください。 seleniumは主に自動テストを目的にchromeなどのブラウザを制御できるソフトです。なので、実際にブラウザの画面でHTML要素を確認してください。自分でブラウザで確認した内容と、selemium経由で取得したHTMLとの差異を検証すればどういう状況なのか分かりませんか？個々のHTML要素が分からない場合は、ちゃんと自分で解析した上で不明点のみを聞いてください。HTML要素の内容を最低でも8割以上理解してから質問しましょう。可能ならHTMLもJavaScriptも質問するところ以外は全て理解してからが理想です。

masarotu

2020/01/23 02:39

frederick_1974様下記の様にtime.sleepで十分な読み込みの時間を持たせ、HTML表示が切り替わった事を確認し、取得をしているのですが状況は変わりませんでした。 driver.find_element_by_css_selector('#id').click() time.sleep(10) html = driver.page_source dameo様 HTMLを解析した上での質問です。わからないなら関わらないでください。通報しました。

frederick_1974

2020/01/23 02:46

iframeの件はいかがですが？読み込んでいるページがAとして、そのページがフレームBとCなどに分割されており、JavaScriptがフレームBまたはCにデータ等を読み込ませた場合、そのままではpage_sourceには表示されないのですが。

dameo

2020/01/23 02:50

HTMLを解析しているのであれば、解析した結果を提示してください。何が阻害要因なのかはJavaScriptである可能性が高いとはいえ、HTMLの差異とJavaScript自体が提示されない以上、判断できません。 seleniumの話であるにも関わらず、タグの追加すらしないで通報とか何をしたいのか分かりませんが、他の方にお任せしますね。頑張ってください。

masarotu

2020/01/23 08:57

frederick_1974様 >iframeの件はいかがですが？失礼しました、見落としていました。どうもiframeで読み込まれている可能性がありそうです！ちょっと調べてみます。 dameo 関わらないでください。