質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.47%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

CSS

CSSはXMLやHTMLで表現した色・レイアウト・フォントなどの要素を指示する仕様の1つです。

Q&A

解決済

1回答

529閲覧

Pythonのスクレイピングにおける、最初のログインのエラー

maltines

総合スコア12

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

CSS

CSSはXMLやHTMLで表現した色・レイアウト・フォントなどの要素を指示する仕様の1つです。

0グッド

0クリップ

投稿2023/03/07 13:54

実現したいこと

Pythjon、スクレイピング初心者です。
Pythonを使って、あるWebページにおいてスクレイピングを行いたいです。

前提

まず、ログインページにおいてログインを行って、その後、特定のページに移動する、という事を行いたいのですが、最初のログインの所でエラーが出てしまっています。

ログインページは、メールアドレスとパスワードを入力してログインする形です。(重要かは分かりませんが、その下に「ログイン情報を保存する」のチェックボックスがあります。)

該当のHTML

メールアドレス入力のHTMLの該当蘭

HTML

1 2<label class="control-group-label" data-bind="css: { 'is-active': isEmailActive }" for="email">メールアドレス</label> 3<span class="error-message" data-bind="text: errors.email"></span> 4<div class="control-group-item"> 5<input class="login-form-input" data-bind="value: form.email, css: { 'is-invalid': errors.email }, hasfocus: isEmailFocused, valueUpdate: 'afterkeydown'" id="email" type="email"/> 6</div> 7

パスワード入力のHTMLの該当蘭

HTML

1 2<label class="control-group-label" data-bind="css: { 'is-active': isPasswordActive }" for="password">パスワード</label> 3<span class="error-message" data-bind="text: errors.password"></span> 4<div class="control-group-item" data-bind=""> 5<input class="login-form-input" data-bind="value: form.password, css: { 'is-invalid': errors.password }, hasfocus: isPasswordFocused, valueUpdate: 'afterkeydown'" id="password" type="password"/> 6</div> 7

「ログイン情報を保存」のHTMLの該当蘭

HTML

1 2<div class="login-form-actions-row"> 3<button class="login-form-submit-button" data-bind="enable: isValid" type="submit">ログイン</button> 4<label class="login-remember-me"> 5<input data-bind="checked: form.autoLogin" type="checkbox"/>ログイン情報を保存する 6 </label> 7</div> 8 9

該当のソースコード

Python

1import requests 2from bs4 import BeautifulSoup 3 4# ログインするための情報 5payload = { 6 'email': 'youremail', 7 'password': 'yourpassword' 8} 9 10# セッションを作成 11with requests.Session() as s: 12 # ログインページを取得し、HTMLをパース 13 login_url = 'https://example/auth/login' 14 login_page = s.get(login_url) 15 login_soup = BeautifulSoup(login_page.content, 'html.parser') 16 17 # ログインする 18 login_res = s.post(login_url, data=payload) 19 20 if login_res.status_code == 200: 21 # HTMLを取得する 22 # 指定したURLにアクセスしてHTMLを取得 23 target_url = 'https://example/target' 24 response = s.get(target_url) 25 26 # BeautifulSoupを使ってHTMLをパース 27 target_soup = BeautifulSoup(response.content, 'html.parser') 28 # BeautifulSoupなどを使用して、必要な情報を抽出する 29 #...(省略) 30 else: 31 # ログインに失敗した場合の処理 32 print("False") 33 print(login_res.status_code) 34 35

発生している問題

ログインがうまくいかず、

False
403

こちらが出力されます。

問題点の予想等

なにぶん初心者なので、HTMLなどへの知見があまりないのですが、ログインのページがネット上で調べた時によくあった形ではなく、data-bindの形式な所に問題があるのかと思うのですが、如何せん対処法が思いつかないので、お力添えいただいただければ幸いです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

meg_

2023/03/07 15:55 編集

403エラーということはアクセス拒否されているのだと思います。スクレイピングを禁止しているサイトだったりしませんか?
maltines

2023/03/08 00:26

一度規約を確認して問題はなかったと思うのですが...もう一度確認してみます。
guest

回答1

0

自己解決

どうやら、スクレイピングの利用が認められないサイトだったようです。今後は規約を詳細に確認したいと思います。

投稿2023/03/08 11:52

maltines

総合スコア12

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.47%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問