質問編集履歴

1

2021/12/26 01:18

投稿

K_cek1005
K_cek1005

スコア0

test CHANGED
File without changes
test CHANGED
@@ -1,129 +1,3 @@
1
- seleniumを使って、ログインが必要なサイトのスクレイピングを試したのですが、
1
+ selenumのスクレイピングにつ
2
2
 
3
- 拡張子がphpのサイトだとアクセスができません。
4
-
5
-
6
-
7
- お知恵を貸し頂ければ幸です。
3
+ お知恵を貸して下さ
8
-
9
-
10
-
11
-
12
-
13
-
14
-
15
- ### 発生している問題・エラーメッセージ
16
-
17
- 拡張子がphpのサイトのURLで実行すると、下記の結果が返ってきます
18
-
19
- ```
20
-
21
- <html><head><title>403 Forbidden</title></head>
22
-
23
- <body>
24
-
25
- <center><h1>403 Forbidden</h1></center>
26
-
27
-
28
-
29
-
30
-
31
- <!-- a padding to disable MSIE and Chrome friendly error page -->
32
-
33
- <!-- a padding to disable MSIE and Chrome friendly error page -->
34
-
35
- <!-- a padding to disable MSIE and Chrome friendly error page -->
36
-
37
- <!-- a padding to disable MSIE and Chrome friendly error page -->
38
-
39
- <!-- a padding to disable MSIE and Chrome friendly error page -->
40
-
41
- <!-- a padding to disable MSIE and Chrome friendly error page -->
42
-
43
- </body></html>
44
-
45
- ```
46
-
47
-
48
-
49
- ### 該当のソースコード
50
-
51
- ※アクセス先のURLは伏せています
52
-
53
-
54
-
55
- ```python
56
-
57
- #ライブラリをインポート
58
-
59
- from selenium import webdriver
60
-
61
- from selenium.webdriver.chrome.options import Options
62
-
63
- from selenium.webdriver.common.action_chains import ActionChains
64
-
65
- from selenium.webdriver.support.ui import Select
66
-
67
- import time
68
-
69
-
70
-
71
- # 処理開始
72
-
73
- # ブラウザをheadlessモード実行
74
-
75
- options = webdriver.ChromeOptions()
76
-
77
- options.add_argument('--headless')
78
-
79
- options.add_argument('--no-sandbox')
80
-
81
- options.add_argument('--disable-dev-shm-usage')
82
-
83
- options.add_argument('--ignore-certificate-errors')
84
-
85
- options.add_argument('--ignore-ssl-errors')
86
-
87
- driver = webdriver.Chrome('chromedriver',options=options)
88
-
89
- driver.implicitly_wait(10)
90
-
91
-
92
-
93
- # サイトにアクセス
94
-
95
- driver.get("〜〜〜.php")
96
-
97
- time.sleep(3)
98
-
99
-
100
-
101
- # ソースを表示してみる
102
-
103
- print(driver.page_source) # results
104
-
105
- ```
106
-
107
-
108
-
109
- ### 試したこと
110
-
111
-
112
-
113
- テストでGoogleのトップページ(https://www.google.com)や
114
-
115
- Yahooのログインページ(https://login.yahoo.co.jp/config/login)のURLを指定。
116
-
117
- いずれもアクセスでき、ソースコードが返ってきました
118
-
119
-
120
-
121
- ### 補足情報(FW/ツールのバージョンなど)
122
-
123
-
124
-
125
- Mac
126
-
127
- Google Colab
128
-
129
- selenium==4.1.0