質問編集履歴

3

cURLをrequestコマンドに変換した結果を追記しました。

2022/10/08 10:39

投稿

Jikao
Jikao

スコア7

test CHANGED
File without changes
test CHANGED
@@ -98,6 +98,13 @@
98
98
  ### 試したこと
99
99
  [https://teratail.com/questions/342435](url)などを参照し、回答の手法を試しましたが、目的のデータを得られませんでした。
100
100
 
101
+ また、上記WebサイトのcURLをこのページ([https://curlconverter.com/python/](url))でrequestsに変換したところ、以下のようになりました。
102
+
103
+ ```python
104
+ import requests
105
+
106
+ response = requests.get('http://^')
107
+ ```
101
108
 
102
109
  ### 補足情報(FW/ツールのバージョンなど)
103
110
 

2

ログイン処理のコードを追記しました。

2022/10/08 10:05

投稿

Jikao
Jikao

スコア7

test CHANGED
File without changes
test CHANGED
@@ -35,8 +35,41 @@
35
35
  また、該当箇所のCSSセレクタを用いて`select`メソッドを用いる手法も試しています。
36
36
 
37
37
  ```python
38
+ #インターバルとURLの設定
39
+ INTERVAL = 2.5
40
+ URL = "https://en-hyouban.com/"
41
+
42
+ #ドライバー設定
43
+ from selenium import webdriver
44
+ driver = webdriver.Chrome(executable_path = "C:\mypg\py\chromedriver.exe")#自分のドライバーのパス
45
+ #サイトにアクセス
46
+ driver.get(URL)
47
+ import time
48
+ time.sleep(INTERVAL)
49
+
50
+ #ログインボタンをクリック
51
+ ele_btn_log = driver.find_element_by_xpath('//*[@id="company-view-header-menu"]/div[2]/div[1]/a')
52
+ driver.get(ele_btn_log.get_attribute("href"))
53
+
54
+ time.sleep(INTERVAL)
55
+
56
+ #ログインIDを記入
57
+ ele_logid = driver.find_element_by_xpath('//*[@id="email"]')
58
+ ele_logid.send_keys(mymail)#自分のメールアドレス
59
+
60
+ #ログインパスワードを記入
61
+ ele_logpwd = driver.find_element_by_xpath('//*[@id="password"]')
62
+ ele_logpwd.send_keys(mypwd)#自分のパスワード
63
+
64
+ #ボタンクリック
65
+ ele_btn_log2 = driver.find_element_by_xpath('//*[@id="login-form"]/div[3]/button')
66
+ ele_btn_log2.click()
67
+ time.sleep(INTERVAL)
68
+
69
+ coop_url = "https://en-hyouban.com/company/00008059864/"
70
+ driver.get(coop_url)
71
+
38
72
  #urlを取得
39
- coop_url = driver.current_url
40
73
  res = requests.get(coop_url)
41
74
 
42
75
  #スープで解析、パーサーはPython’s html.parser

1

タイトルを分かりやすく書き換えました。

2022/10/08 06:21

投稿

Jikao
Jikao

スコア7

test CHANGED
@@ -1 +1 @@
1
- 特定のWebサイトからSpan内データをスクレイピングできない
1
+ 閲覧にログインが必要なサイトの情報をスクレイピングできない。ログイン前の情報(ログインして閲覧!というボタンの情報など)が取れてしまう。
test CHANGED
@@ -52,6 +52,7 @@
52
52
  ```
53
53
  ### 発生している問題・エラーメッセージ
54
54
  取り出せていません...
55
+ ログイン前のデータを取り出してしまっているようです。
55
56
 
56
57
  ```python
57
58
  None
@@ -67,9 +68,7 @@
67
68
 
68
69
  ### 補足情報(FW/ツールのバージョンなど)
69
70
 
70
- 開発者ツ上記のサイトを調べたのですが該当箇所たたなっていした。それも関係あるのでしょうか
71
-
72
- また、上記pythonコードで抽出した文字列の中に、`<a href="https://en-hyouban.com/user/register/?companytop_satisfaction">`というタグがありましたが、このリンクに見覚えがあり、調べてみたところログインしていない状態でWebサイトにアクセスしたときに出る、会員登録を促すURLと同一のものでした。ログインなしでアクセスしたときの、htmlソースを以下に付記しておきます。
71
+ 上記pythonコ抽出し文字列中に`<a href="https://en-hyouban.com/user/register/?companytop_satisfaction">`というタグりまが、このリンク見覚えがあり、調べみたところログインしてない状態でWebサイトにアクセスしたときに出、会員登録を促すURLと同一ものでしログインなしでアクセスしたときの、htmlソースを以下に付記しておきます。
73
72
 
74
73
  ```html
75
74
  <div class="mb-2 mt-3">
@@ -88,3 +87,5 @@
88
87
  </div>
89
88
  ```
90
89
 
90
+ 上記のサイトに関して、スクレイピング対策としてどのような手法を取っているのか、質問タイトルの状態から類推できることがあればご教示いただきたいです。よろしくお願いいたします。
91
+