質問編集履歴

cURLをrequestコマンドに変換した結果を追記しました。

2022/10/08 10:39

投稿

Jikao

スコア7

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -98,7 +98,14 @@
 ### 試したこと
 [https://teratail.com/questions/342435](url)などを参照し、回答の手法を試しましたが、目的のデータを得られませんでした。
+また、上記WebサイトのcURLをこのページ([https://curlconverter.com/python/](url))でrequestsに変換したところ、以下のようになりました。
+```python
+import requests
+response = requests.get('http://^')
+```
 ### 補足情報（FW/ツールのバージョンなど）
 上記pythonコードで抽出した文字列の中に、`<a href="https://en-hyouban.com/user/register/?companytop_satisfaction">`というタグがありましたが、このリンクに見覚えがあり、調べてみたところログインしていない状態でWebサイトにアクセスしたときに出る、会員登録を促すURLと同一のものでした。ログインなしでアクセスしたときの、htmlソースを以下に付記しておきます。

スクレイピング Beautiful Soup Python 3.x ログイン Python

ログイン処理のコードを追記しました。

2022/10/08 10:05

投稿

Jikao

スコア7

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -35,8 +35,41 @@
 また、該当箇所のCSSセレクタを用いて`select`メソッドを用いる手法も試しています。
 ```python
+#インターバルとURLの設定
+INTERVAL = 2.5
+URL = "https://en-hyouban.com/"
+#ドライバー設定
+from selenium import webdriver
+driver = webdriver.Chrome(executable_path = "C:\mypg\py\chromedriver.exe")#自分のドライバーのパス
+#サイトにアクセス
+driver.get(URL)
+import time
+time.sleep(INTERVAL)
+#ログインボタンをクリック
+ele_btn_log = driver.find_element_by_xpath('//*[@id="company-view-header-menu"]/div[2]/div[1]/a')
+driver.get(ele_btn_log.get_attribute("href"))
+time.sleep(INTERVAL)
+#ログインIDを記入
+ele_logid = driver.find_element_by_xpath('//*[@id="email"]')
+ele_logid.send_keys(mymail)#自分のメールアドレス
+#ログインパスワードを記入
+ele_logpwd = driver.find_element_by_xpath('//*[@id="password"]')
+ele_logpwd.send_keys(mypwd)#自分のパスワード
+#ボタンクリック
+ele_btn_log2 = driver.find_element_by_xpath('//*[@id="login-form"]/div[3]/button')
+ele_btn_log2.click()
+time.sleep(INTERVAL)
+coop_url = "https://en-hyouban.com/company/00008059864/"
+driver.get(coop_url)
 #urlを取得
-coop_url = driver.current_url
 res = requests.get(coop_url)
 #スープで解析、パーサーはPython’s html.parser

スクレイピング Beautiful Soup Python 3.x ログイン Python

タイトルを分かりやすく書き換えました。

2022/10/08 06:21

投稿

Jikao

スコア7

title CHANGED Viewed

	@@ -1,1 +1,1 @@
1	- ~~特定のWeb~~サイト~~からSpan内~~の~~データ~~をスクレイピングできない
1	+ 閲覧にログインが必要なサイトの情報をスクレイピングできない。ログイン前の情報(ログインして閲覧！というボタンの情報など)が取れてしまう。

body CHANGED Viewed

@@ -52,6 +52,7 @@
 ```
 ### 発生している問題・エラーメッセージ
 取り出せていません...
+ログイン前のデータを取り出してしまっているようです。
 ```python
 None
@@ -67,10 +68,8 @@
 ### 補足情報（FW/ツールのバージョンなど）
-開発者ツールで上記のサイトを調べたのですが、該当箇所が折りたたまれた形になっていました。それも関係あるのでしょうか。
+上記pythonコードで抽出した文字列の中に、`<a href="https://en-hyouban.com/user/register/?companytop_satisfaction">`というタグがありましたが、このリンクに見覚えがあり、調べてみたところログインしていない状態でWebサイトにアクセスしたときに出る、会員登録を促すURLと同一のものでした。ログインなしでアクセスしたときの、htmlソースを以下に付記しておきます。
-また、上記pythonコードで抽出した文字列の中に、`<a href="https://en-hyouban.com/user/register/?companytop_satisfaction">`というタグがありましたが、このリンクに見覚えがあり、調べてみたところログインしていない状態でWebサイトにアクセスしたときに出る、会員登録を促すURLと同一のものでした。ログインなしでアクセスしたときの、htmlソースを以下に付記しておきます。
 ```html
                     <div class="mb-2 mt-3">
     <div class="d-flex justify-content-between align-items-end">
@@ -87,3 +86,5 @@
     </div>
 </div>
 ```
+上記のサイトに関して、スクレイピング対策としてどのような手法を取っているのか、質問タイトルの状態から類推できることがあればご教示いただきたいです。よろしくお願いいたします。

スクレイピング Beautiful Soup Python 3.x ログイン Python

ログイン