teratail header banner
teratail header banner
質問するログイン新規登録

質問編集履歴

2

2020/08/08 11:05

投稿

onezero
onezero

スコア0

title CHANGED
File without changes
body CHANGED
@@ -27,4 +27,4 @@
27
27
 
28
28
  res = session.post(url, data=info, cookies=cookie)
29
29
  ```
30
- という、コードを書いて、そのログイン状態を保持したまま、スクレイピングできずに困っています。
30
+ という、コードを書いて、そのログイン状態を保持したまま、スクレイピングできずに困っています。これは、pandasのread_htmlで書いた方が楽なのですが、やり方がわからず、ネット検索して、上記のようにbeautifulsoupで書いたものをまねして、書いてみましたがうまくいかず頓挫しています。

1

2020/08/08 11:04

投稿

onezero
onezero

スコア0

title CHANGED
File without changes
body CHANGED
@@ -3,4 +3,28 @@
3
3
 
4
4
  pandasのread_htmlを利用してnetkeibaのテーブルをスクレイピングし、forで何回かループさせたいのですが、読み込んだテーブルがログオフ状態のテーブルをスクレイピングすることはできましたが、ログイン状態のテーブルをスクレイピングすることができません。
5
5
 
6
- よろしくお願いします。
6
+ よろしくお願いします。
7
+
8
+ 以下、追記です。
9
+ ```
10
+ pip install requests
11
+ pip install BeautifulSoup4
12
+
13
+ import requests
14
+ from bs4 import BeautifulSoup
15
+
16
+ url = "https://regist.netkeiba.com/account/?pid=login"
17
+ session = requests.session()
18
+ response = session.get(url)
19
+ bs = BeautifulSoup(response.text, 'html.parser')
20
+
21
+ cookie = response.cookies
22
+
23
+ info = {
24
+ "login_id": "メールアドレス",
25
+ "pswd": "ログインパスワード",
26
+ }
27
+
28
+ res = session.post(url, data=info, cookies=cookie)
29
+ ```
30
+ という、コードを書いて、そのログイン状態を保持したまま、スクレイピングできずに困っています。