質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Cookie

HTTPにおけるCookieとは、クライアントのウェブブラウザ上に保存された一時的なデータを指します。クライアント側のJavaScriptでも、サーバー側のHTTPヘッダーでもクッキーの読み書き・修正・削除が可能です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。

Q&A

0回答

1693閲覧

Python Seleniumのログインが必要なサイトをCookieを利用してスクレイピングしたい。

fukushima_ekubo

総合スコア24

Cookie

HTTPにおけるCookieとは、クライアントのウェブブラウザ上に保存された一時的なデータを指します。クライアント側のJavaScriptでも、サーバー側のHTTPヘッダーでもクッキーの読み書き・修正・削除が可能です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。

0グッド

1クリップ

投稿2022/06/14 09:37

編集2022/06/14 09:37

※Pythonを学び始めてまだ日が浅く、質問内容に不備不足がありましたら申し訳ありません。

知りたいこと

ログインが必要な不動産情報サイトをスクレイピングするにあたり以下の手順で進めています。

  1. ファイル名「getcookie.py」内でSeleniumを使用してログインとクッキーの取得
  2. ファイル名「geturl.py」内でSeleniumを使用してクッキーの削除と読み込み、ブラウザの操作とURLリストの取得
  3. ファイル名「getlist.py」内でSeleniumを使用してクッキーの削除と読み込み、URLリストのURLにアクセスしてデータを取得

この際、3の処理としては一度サイトTOPページを読み込み、クッキーの処理、
その後driver.get(URL)にて個別ページにアクセスしようとしていますが、該当ページにアクセスするタイミングでクッキーが削除され、ログインページにリダイレクトしてしまいます。
2では、物件情報の条件入力画面、検索結果のリストの画面は上記方法で動いています。

また、この現象はSeleniumのChromedriverでのみ起こり、
手元のChromeブラウザでログイン→URLベタ打ちでのアクセスを試してみたところアクセスできました。
Chromedriverではクッキーを使用せず、ログイン→driver.get(URL)でもアクセスできませんでした。

サイト側で何か制限をかけているのでしょうか??

該当部分のソースコード

getcookie.py

1driver.get(target_url) 2 3if error_flg is False: 4 try: 5 username_input = driver.find_element(by=By.ID,value='LoginId') 6 username_input.send_keys(USERNAME) 7 password_input = driver.find_element(by=By.ID,value='LoginPass') 8 password_input.send_keys(PASSWORD) 9 10 driver.find_element(by=By.ID,value='login-btn').click() 11 12 except Exception: 13 print('ユーザー名、パスワード入力時にエラーが発生しました。') 14 error_flg = True 15 16# クッキー取得 17pickle.dump(driver.get_cookies() , open("cookies.pkl","wb"))

geturl.py

1driver.get(toppage_url) 2 3# クッキー処理 4driver.delete_all_cookies() 5cookies = pickle.load(open("cookies.pkl", "rb")) 6for cookie in cookies: 7 driver.add_cookie(cookie) 8 9# URLにアクセス 10driver.get(target_url)

getlist.py

1try: 2 driver.get(toppage_url) 3 4 # クッキー処理 5 driver.delete_all_cookies() 6 cookies = pickle.load(open("cookies.pkl", "rb")) 7 for cookie in cookies: 8   driver.add_cookie(cookie) 9 10 # URLにアクセス 11 driver.get(target_url) 12 13except Exception: 14 print('取得済みクッキーの読み込み・書き込み時にエラーが発生しました。') 15 error_flg = True

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問