質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

87.37%

python requestsでのスクレイピング

受付中

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 2,626

score 9

 前提・実現したいこと

pythonでスクレイピングを行い、レッスンのシート情報を取得したい

流れとしては、

  1. レッスンのsidを取得([ このURL ]から任意の店舗の任意のレッスンを選択し取得)
  2. マイページへid,passsを付与したpostを飛ばし、クッキーを取得
  3. [ このURL ]へ1,2で取得した sid, クッキー を付与してpostを飛ばし、シート情報が返ってくる

1については、すでに対応済みのため、スコープ外

 試したこと

postmanを使い、3のリクエストに必要なリクエストヘッダを確認
結果、ログインした際のクッキーを保持しつつ、sidという変数を渡すことで結果が得られることが確認できた
(成功の場合シート番号が羅列されたhtmlが帰ってくる、失敗の場合「予約できないレッスンです。レッスンを選択し直してください」と表示される)

以下試したこと

  1. 下記ソースの通り、requests.Session()を使いpostを投げてみた ⇒ 失敗
  2. 一度クロームでログインした状態で、レッスンを選択し、デバックツールで渡しているクッキーの値を確認
    ブラウザはそのままの状態で、クッキーの値を明示的に示してpostを投げた(requests.Session()は使わず) ⇒ 成功
  3. .cookies でクッキー情報が取得できるようなので、取得し、それを明示的に示してpostを投げた ⇒ 失敗

postmanおよび2での結果により、クッキー情報とsidが必要なのはおそらく間違いなさそう
だが、1,3でなぜ失敗するのかがわからない

また、試しに3の際に.headdersでリクエストヘッダーを確認したところ、
クッキーで渡しているPHPSESSIDという値が、2つ返ってきていた これもよくわからない

 該当のソースコード

import requests
from bs4 import BeautifulSoup
import pprint

#ログイン用テストアカウント
ID = 'python.3264@gmail.com'
PASS = 'test1234'

payload = {
    'commit_login':'',
    'login_id': ID,
    'login_pass': PASS,
}

# クッキーを取得するために一度マイページへアクセスする
URL_mypage = 'https://www.feelcycle.com/feelcycle_reserve/mypage.php'

s = requests.Session()
res = s.post(URL_mypage, data=payload, headers=headers)

cookie01 = dict(res.cookies)
head = dict(res.headers)


# クッキーの確認 ※ \nはprintをみやすいように入力しているだけです
print('\n#######################################################################\n')
print('\ncoockie\n')
pprint.pprint(cookie01, width=40)
print('\n#######################################################################\n')
print('\nheaders\n')
pprint.pprint(head, width=40)
print('\n#######################################################################\n')

# 情報を取得したいurl
URL_sheet = 'https://www.feelcycle.com/feelcycle_reserve/sheet.php'

#2の際にブラウザで確認したクッキーを静的に示した
CLOUDNLBA = ''
PHPSESSID = ''
authchallenge = ''

correct_cookies={
    'CLOUDNLBA':CLOUDNLBA,
    'PHPSESSID':PHPSESSID,
    'authchallenge':authchallenge,
}

#/reserve.phpで取得したsid
payload_sid = {
    'sid': '243297'
}

#上記1,3で試したpost
res02 = s.post(URL_sheet, data=payload_sid, cookies=cookie01)
#上記2で試したpost
res02 = requests.post(URL_sheet, data=payload_sid, cookies=correct_cookies)

#返ってきたhtmlの確認
soup = BeautifulSoup(res02.content, 'lxml')
print(soup.text)

 発生している問題・エラーメッセージ

上記の通り、シート情報を取得するには、ログインした状態を維持したまま(=クッキーを持ったまま)
/feelcycle_reserve/sheet.php へポストを飛ばす必要があるはずですが、そのクッキーをもったままというのが、再現できません。

コード的には、あっている気がするので、そもそも最初にマイページにアクセスするときに取得したクッキーが無効なんでしょうか。
(ポストの送り方が悪いなど・・・?)

必死に考えましたが、これ以上は手詰まりなので、ぜひお知恵を貸してください。
よろしくお願いいたします。

 補足情報(FW/ツールのバージョンなど)

・python 3.6.5
・beautifulsoup 4.6.0
・requests 2.18.4

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

+1

試してませんが、「Session PHPSESSID requests login」でググると
python-requests-logging-into-website-using-post-and-cookies

あとは、seleniumとかでも同様の処理ができそうな気もします。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 87.37%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る