質問編集履歴
3
cURLをrequestコマンドに変換した結果を追記しました。
test
CHANGED
File without changes
|
test
CHANGED
@@ -98,6 +98,13 @@
|
|
98
98
|
### 試したこと
|
99
99
|
[https://teratail.com/questions/342435](url)などを参照し、回答の手法を試しましたが、目的のデータを得られませんでした。
|
100
100
|
|
101
|
+
また、上記WebサイトのcURLをこのページ([https://curlconverter.com/python/](url))でrequestsに変換したところ、以下のようになりました。
|
102
|
+
|
103
|
+
```python
|
104
|
+
import requests
|
105
|
+
|
106
|
+
response = requests.get('http://^')
|
107
|
+
```
|
101
108
|
|
102
109
|
### 補足情報(FW/ツールのバージョンなど)
|
103
110
|
|
2
ログイン処理のコードを追記しました。
test
CHANGED
File without changes
|
test
CHANGED
@@ -35,8 +35,41 @@
|
|
35
35
|
また、該当箇所のCSSセレクタを用いて`select`メソッドを用いる手法も試しています。
|
36
36
|
|
37
37
|
```python
|
38
|
+
#インターバルとURLの設定
|
39
|
+
INTERVAL = 2.5
|
40
|
+
URL = "https://en-hyouban.com/"
|
41
|
+
|
42
|
+
#ドライバー設定
|
43
|
+
from selenium import webdriver
|
44
|
+
driver = webdriver.Chrome(executable_path = "C:\mypg\py\chromedriver.exe")#自分のドライバーのパス
|
45
|
+
#サイトにアクセス
|
46
|
+
driver.get(URL)
|
47
|
+
import time
|
48
|
+
time.sleep(INTERVAL)
|
49
|
+
|
50
|
+
#ログインボタンをクリック
|
51
|
+
ele_btn_log = driver.find_element_by_xpath('//*[@id="company-view-header-menu"]/div[2]/div[1]/a')
|
52
|
+
driver.get(ele_btn_log.get_attribute("href"))
|
53
|
+
|
54
|
+
time.sleep(INTERVAL)
|
55
|
+
|
56
|
+
#ログインIDを記入
|
57
|
+
ele_logid = driver.find_element_by_xpath('//*[@id="email"]')
|
58
|
+
ele_logid.send_keys(mymail)#自分のメールアドレス
|
59
|
+
|
60
|
+
#ログインパスワードを記入
|
61
|
+
ele_logpwd = driver.find_element_by_xpath('//*[@id="password"]')
|
62
|
+
ele_logpwd.send_keys(mypwd)#自分のパスワード
|
63
|
+
|
64
|
+
#ボタンクリック
|
65
|
+
ele_btn_log2 = driver.find_element_by_xpath('//*[@id="login-form"]/div[3]/button')
|
66
|
+
ele_btn_log2.click()
|
67
|
+
time.sleep(INTERVAL)
|
68
|
+
|
69
|
+
coop_url = "https://en-hyouban.com/company/00008059864/"
|
70
|
+
driver.get(coop_url)
|
71
|
+
|
38
72
|
#urlを取得
|
39
|
-
coop_url = driver.current_url
|
40
73
|
res = requests.get(coop_url)
|
41
74
|
|
42
75
|
#スープで解析、パーサーはPython’s html.parser
|
1
タイトルを分かりやすく書き換えました。
test
CHANGED
@@ -1 +1 @@
|
|
1
|
-
|
1
|
+
閲覧にログインが必要なサイトの情報をスクレイピングできない。ログイン前の情報(ログインして閲覧!というボタンの情報など)が取れてしまう。
|
test
CHANGED
@@ -52,6 +52,7 @@
|
|
52
52
|
```
|
53
53
|
### 発生している問題・エラーメッセージ
|
54
54
|
取り出せていません...
|
55
|
+
ログイン前のデータを取り出してしまっているようです。
|
55
56
|
|
56
57
|
```python
|
57
58
|
None
|
@@ -67,9 +68,7 @@
|
|
67
68
|
|
68
69
|
### 補足情報(FW/ツールのバージョンなど)
|
69
70
|
|
70
|
-
|
71
|
-
|
72
|
-
また、上記pythonコードで抽出した文字列の中に、`<a href="https://en-hyouban.com/user/register/?companytop_satisfaction">`というタグがありましたが、このリンクに見覚えがあり、調べてみたところログインしていない状態でWebサイトにアクセスしたときに出る、会員登録を促すURLと同一のものでした。ログインなしでアクセスしたときの、htmlソースを以下に付記しておきます。
|
71
|
+
上記pythonコードで抽出した文字列の中に、`<a href="https://en-hyouban.com/user/register/?companytop_satisfaction">`というタグがありましたが、このリンクに見覚えがあり、調べてみたところログインしていない状態でWebサイトにアクセスしたときに出る、会員登録を促すURLと同一のものでした。ログインなしでアクセスしたときの、htmlソースを以下に付記しておきます。
|
73
72
|
|
74
73
|
```html
|
75
74
|
<div class="mb-2 mt-3">
|
@@ -88,3 +87,5 @@
|
|
88
87
|
</div>
|
89
88
|
```
|
90
89
|
|
90
|
+
上記のサイトに関して、スクレイピング対策としてどのような手法を取っているのか、質問タイトルの状態から類推できることがあればご教示いただきたいです。よろしくお願いいたします。
|
91
|
+
|