pythonでのスクレイピングについて

前提・実現したいこと

ここに質問の内容を詳しく書いてください。
pythonでseleniumを使用して、webサイトかのaタグをクリックして
csvのダウンロードをしたいのですが、うまくいきません。

実現したいことは
①https://jp.investing.com/etfs/vanguard-total-world-stock-index-historical-dataへ遷移
②「データをダウンロードする」（javascript:void(0))というリンクをクリックしてcsvのダウンロード
です。

発生している問題・エラーメッセージ

①は正常に動作していて、②に対して色々試したのですがエラーも出ず
失敗している原因が分からない状態です。

エラーメッセージ
ありません

該当のソースコード

python
1#基本のインポート
2import time
3import chromedriver_binary 
4from selenium import webdriver
5
6#chromeの設定 optionは「Default Adapter failed」対応
7options = webdriver.ChromeOptions()
8options.add_experimental_option("excludeSwitches", ["enable-logging"])
9driver = webdriver.Chrome(options=options)
10
11#指定したURLへ移動
12driver.get('https://jp.investing.com/etfs/vanguard-total-world-stock-index-historical-data')
13
14time.sleep(30) #一応スリープ
15driver.execute_script('javascript:void(0)')
16

試したこと

①xpathからのクリック
element = driver.find_element_by_xpath("//*[@id='column-content']/div[4]/div/a")
element.click()

②リンクテキストからのクリック
driver.find_element_by_link_text("データをダウンロードする").click()

補足情報（FW/ツールのバージョンなど）

ここにより詳細な情報を記載してください。

行動規範の内容に同意します

回答1件

ベストアンサー

void(0)は何もしないので、実行しても何も起こらないのが正解です。

クリックしたいのはaタグなのですか？どういうタグなのでしょうか？

投稿2021/05/22 04:49

otn

総合スコア85901

kei_k

2021/05/22 05:13

確認いただきありがとうございます。 void()は何もしない場合にタグからどうやってファイルのダウンロードが実行されているかがわかりません。。 ------------タグ---------------------------------------------------------------------------------------- <div class="float_lang_base_2 downloadDataWrap"> <a data-action-hash="" href="javascript:void(0);" data-table-id="curr_table" data-filename-selector="h2" title="データをダウンロードする" class="newBtn LightGray downloadBlueIcon js-download-data">データをダウンロードする</a> </div> --------------------------------------------------------------------------------------------------------- 一応ですが、以下のように対象を特定するところまでは出来ています。特定したelementに対してclick()が失敗するため、詰まっているのが現状となります。 element = driver.find_element_by_link_text("データをダウンロードする") print(element.text)　→「データをダウンロードする」と出力される

kei_k

2021/05/22 05:20

追記させていただきます。サイトのソースコードを調査したところ以下のjavascriptによってダウンロードが実行されているであろうことがわかりました。 <script> $('.js-download-data').on('click', function () { var $currentTab = $('.js-stock-filter-buttons .toggled'); overlay.authCompleteAction = { 'type': 'tablesData', 'actionData': { 'actionHash': $(this).data('action-hash'), 'tableID': $(this).data('table-id'), 'tabName': $currentTab.exists() ? $currentTab.attr('type').toLowerCase() : 'price', 'sort': { 'sortList': window.dataCurrentSort, 'isCustom' : !!window.isCustomSort } } } overlay.overlayLogin(); }) </script> こちらを実行することが出来れば何とかなりそうです。

otn

2021/05/22 05:40

href="javascript:void(0);"は、aタグのページ遷移機能を殺す目的です。この場合は、onclickを使ってJavaScriptを起動するのが普通です。 $('.js-download-data').on('click', function () {～～で、このタグをクリックしたら、この関数を実行するように設定しています。

kei_k

2021/05/22 06:45

otnさんおかげさまで無事解決しました。「js-download-data」のクリックが契機でダウンロードが実行されるため、 driver.find_element_by_xpathでエレメントを取得しクリックを実行しても実行契機とはならないという問題でした。最終的に以下のソースで解決しました。 ----------------------------------------------------------------------------------------------------------- #基本のインポート import chromedriver_binary from selenium import webdriver #chromeの設定 optionは「Default Adapter failed」対応 options = webdriver.ChromeOptions() options.add_experimental_option("excludeSwitches", ["enable-logging"]) driver = webdriver.Chrome(options=options) #指定したURLへ移動 driver.get('https://jp.investing.com/etfs/vanguard-total-world-stock-index-historical-data') #ダウンロード実行 download = driver.find_element_by_class_name("js-download-data") download.click() print("完了") -----------------------------------------------------------------------------------------------------------

行動規範の内容に同意します