実現したいこと
Pythjon、スクレイピング初心者です。
Pythonを使って、あるWebページにおいてスクレイピングを行いたいです。
前提
まず、ログインページにおいてログインを行って、その後、特定のページに移動する、という事を行いたいのですが、最初のログインの所でエラーが出てしまっています。
ログインページは、メールアドレスとパスワードを入力してログインする形です。(重要かは分かりませんが、その下に「ログイン情報を保存する」のチェックボックスがあります。)
該当のHTML
メールアドレス入力のHTMLの該当蘭
HTML
1 2<label class="control-group-label" data-bind="css: { 'is-active': isEmailActive }" for="email">メールアドレス</label> 3<span class="error-message" data-bind="text: errors.email"></span> 4<div class="control-group-item"> 5<input class="login-form-input" data-bind="value: form.email, css: { 'is-invalid': errors.email }, hasfocus: isEmailFocused, valueUpdate: 'afterkeydown'" id="email" type="email"/> 6</div> 7
パスワード入力のHTMLの該当蘭
HTML
1 2<label class="control-group-label" data-bind="css: { 'is-active': isPasswordActive }" for="password">パスワード</label> 3<span class="error-message" data-bind="text: errors.password"></span> 4<div class="control-group-item" data-bind=""> 5<input class="login-form-input" data-bind="value: form.password, css: { 'is-invalid': errors.password }, hasfocus: isPasswordFocused, valueUpdate: 'afterkeydown'" id="password" type="password"/> 6</div> 7
「ログイン情報を保存」のHTMLの該当蘭
HTML
1 2<div class="login-form-actions-row"> 3<button class="login-form-submit-button" data-bind="enable: isValid" type="submit">ログイン</button> 4<label class="login-remember-me"> 5<input data-bind="checked: form.autoLogin" type="checkbox"/>ログイン情報を保存する 6 </label> 7</div> 8 9
該当のソースコード
Python
1import requests 2from bs4 import BeautifulSoup 3 4# ログインするための情報 5payload = { 6 'email': 'youremail', 7 'password': 'yourpassword' 8} 9 10# セッションを作成 11with requests.Session() as s: 12 # ログインページを取得し、HTMLをパース 13 login_url = 'https://example/auth/login' 14 login_page = s.get(login_url) 15 login_soup = BeautifulSoup(login_page.content, 'html.parser') 16 17 # ログインする 18 login_res = s.post(login_url, data=payload) 19 20 if login_res.status_code == 200: 21 # HTMLを取得する 22 # 指定したURLにアクセスしてHTMLを取得 23 target_url = 'https://example/target' 24 response = s.get(target_url) 25 26 # BeautifulSoupを使ってHTMLをパース 27 target_soup = BeautifulSoup(response.content, 'html.parser') 28 # BeautifulSoupなどを使用して、必要な情報を抽出する 29 #...(省略) 30 else: 31 # ログインに失敗した場合の処理 32 print("False") 33 print(login_res.status_code) 34 35
発生している問題
ログインがうまくいかず、
False
403
こちらが出力されます。
問題点の予想等
なにぶん初心者なので、HTMLなどへの知見があまりないのですが、ログインのページがネット上で調べた時によくあった形ではなく、data-bindの形式な所に問題があるのかと思うのですが、如何せん対処法が思いつかないので、お力添えいただいただければ幸いです。
回答1件
あなたの回答
tips
プレビュー