### 実現したいこと Python+Seleniumでwebページからファイルをダウンロードしたい ### 前提 Seleniumでwebページにアクセスして、そのページ内にあるダウンロードリンクを取得まではいくのですが、 driver.getでそのダウンロードurlにアクセスできない。エラーは発生せず、ただダウンロードができていない。 ### 発生している問題・エラーメッセージ ``` エラーメッセージなし ``` ### 該当のソースコード ```python from selenium import webdriver from selenium.webdriver.chrome.service import Service as ChromeService from webdriver_manager.chrome import ChromeDriverManager from selenium.webdriver.chrome.options import Options from selenium.webdriver.common.by import By from time import sleep options = webdriver.ChromeOptions() options.add_argument('--headless') options.add_argument('--disable-gpu') options.add_argument('--no-sandbox') options.add_argument('--disable-dev-shm-usage') options.add_argument('--remote-debugging-port=9222') # option設定 headless 軽量化 options.add_experimental_option("prefs", {"download.default_directory": r'G:\マイドライブ\download' }) # option設定ダウンロード保存先 driver = webdriver.Chrome(service=ChromeService(ChromeDriverManager().install()),options=options) driver.get('https://www.naaim.org/programs/naaim-exposure-index/') sleep(10) elem = driver.find_element(By.CSS_SELECTOR,'* strong > a') link = elem.get_attribute('href') driver.get(link) driver.quit() ``` ### 試したこと link = elem.get_attribute('href') で正しいurlは取得できています。（そのurlにアクセスするとダウンロードが始まります。） ### 補足情報（FW/ツールのバージョンなど）

Python+Seleniumでwebページからファイルをダウンロード

実現したいこと

Python+Seleniumでwebページからファイルをダウンロードしたい

前提

Seleniumでwebページにアクセスして、そのページ内にあるダウンロードリンクを取得まではいくのですが、
driver.getでそのダウンロードurlにアクセスできない。
エラーは発生せず、ただダウンロードができていない。

発生している問題・エラーメッセージ

エラーメッセージ
なし

該当のソースコード

python
1from selenium import webdriver
2from selenium.webdriver.chrome.service import Service as ChromeService
3from webdriver_manager.chrome import ChromeDriverManager
4from selenium.webdriver.chrome.options import Options
5from selenium.webdriver.common.by import By
6from time import sleep
7
8options = webdriver.ChromeOptions()
9options.add_argument('--headless')
10options.add_argument('--disable-gpu')
11options.add_argument('--no-sandbox')
12options.add_argument('--disable-dev-shm-usage')
13options.add_argument('--remote-debugging-port=9222') # option設定 headless 軽量化
14options.add_experimental_option("prefs", {"download.default_directory": r'G:\マイドライブ\download' }) # option設定 ダウンロード保存先
15driver = webdriver.Chrome(service=ChromeService(ChromeDriverManager().install()),options=options)
16
17driver.get('https://www.naaim.org/programs/naaim-exposure-index/')
18sleep(10)
19elem = driver.find_element(By.CSS_SELECTOR,'* strong > a')
20link = elem.get_attribute('href')
21driver.get(link)
22driver.quit()

試したこと

link = elem.get_attribute('href')　で正しいurlは取得できています。（そのurlにアクセスするとダウンロードが始まります。）

補足情報（FW/ツールのバージョンなど）

melian

2023/03/02 14:05

手元の環境ですと、sleep を入れることでダウンロードが完了しました。(もっと適切な方法があるとは思いますが。。。) driver.get(link) sleep(10) driver.quit()

rororish

2023/03/03 00:49

ご返信ありがとうございます。私の環境だと、そちらを試しても、変化はありませんでした。 headlessを外すとうまくいったのですが、headlessをつけると、ダウンロードファイルが保存先にありませんでした…

melian

2023/03/03 01:31

一応書いておきますと、こちらの環境は以下の通りです。 Ubuntu Linux 22.04, Google Chrome 110.0.5481.177, ChromeDriver 110.0.5481.77 こちらでは headless モードであってもなくても sleep を入れないとダウンロードされません。

rororish

2023/03/04 07:00

解決いたしました。どうやら、ヘッドレスだとセキュリティの関係で、ダウンロードできない場合があるようです。参照　https://isgs-lab.com/183/ いくつか処理を施すことで無事ダウンロードできました。ご協力ありがとうございました！

行動規範の内容に同意します

回答2件

自己解決

解決いたしました。
どうやら、ヘッドレスだとセキュリティの関係で、ダウンロードできない場合があるようです。
参照　https://isgs-lab.com/183/
いくつか処理を施すことで無事ダウンロードできました。

投稿2023/03/04 07:00

rororish

総合スコア4

driver.get(link)
で、ダウンロードダイアログが出ているのでは？
いったんheadlesssを止めて、getの直後でのブラウザ画面を見てみましょう。
（--headlessを付けるのは、プログラムが完成してからです）

投稿2023/03/02 13:06

otn

総合スコア86590

rororish

2023/03/02 23:58

ご返信ありがとうございます。おっしゃる通り、headlesssを外したところ、正常にダウンロードが完了していました。しかし、再びheadlesssをつけると、やはり、ダウンロード保存先にファイルは存在しませんでした。どういったことが考えられますでしょうか…？

otn

2023/03/03 05:50

> しかし、再びheadlesssをつけると、やはり、ダウンロード保存先にファイルは存在しませんでした。 driver.get_screenshot_as_file("/path/to/file.png") で、クリック後にスクリーンショットを見てみましょう。 melianさんのコメントにもありますが、クリック直後にブラウザを終了させると、ダウンロード途中だったかも。

rororish

2023/03/04 06:59

行動規範の内容に同意します

あなたの回答