回答編集履歴

8

fix answer

2022/10/24 14:21

投稿

ps_aux_grep
ps_aux_grep

スコア1579

test CHANGED
@@ -35,4 +35,4 @@
35
35
 
36
36
  今回利用した遷移元からのデータ`'cname': 'pt01kld00999999993101/48'`の取得方法もAbeTakashiさんの回答に同意のもと述べないでおきます.実際これだけでは上位20名分の騎手ランキングしか得られないこと注意してください.
37
37
 
38
- あくまでエラーの出ない取得方法を上述して「tableは取得可能である」という状態にした解答を示しました.が,くぐれも他人が嫌がっいることをる人間にならないよう願ってます
38
+ あくまでエラーの出ない取得方法を上述して「tableは取得可能である」という状態にした解答を示しました.一応[スクレイピングの方法](https://doanythings0.blogspot.com/2020/02/jrawebpython2.html)はググば出きまが利用自己責任で

7

fix answer

2022/10/24 14:14

投稿

ps_aux_grep
ps_aux_grep

スコア1579

test CHANGED
@@ -31,9 +31,8 @@
31
31
  response.encoding = response.apparent_encoding
32
32
  print(pd.read_html(response.text))
33
33
  ```
34
- 基本,HTTPに関する知識及びHTML5に関する知識なしではJRAからのスクレイピングは難航するでしょう.
34
+ 基本,HTTPに関する知識及びHTML5に関する知識なしではJRAからのスクレイピングは難航するでしょう.ここまでJRA側がスクレイピングを嫌っているので,やらない方が紳士的かと思います.
35
- ここまでJRA側がスクレイピングを嫌っているので,やらない方が紳士的かと思います.
36
35
 
37
- 今回利用した遷移元からのデータ`'cname': 'pt01kld00999999993101/48'`の取得方法もAbeTakashiさんの回答に同意のもと述べないでおきます.実際上位20名分の情報しか得られない`cname`ですそれ以降の情報は新たに`cname`を割りる必要があります
36
+ 今回利用した遷移元からのデータ`'cname': 'pt01kld00999999993101/48'`の取得方法もAbeTakashiさんの回答に同意のもと述べないでおきます.実際これだけでは上位20名分の騎手ランキングしか得られないこと注意してください
38
37
 
39
- あくまでエラーの出ない取得方法を上述して「tableは取得可能である」という状態にした解答を示しておきます.
38
+ あくまでエラーの出ない取得方法を上述して「tableは取得可能である」という状態にした解答を示しました.が,くれぐれも他人が嫌がっいることをする人間にはならないよう願ってます.

6

fix answer

2022/10/24 13:55

投稿

ps_aux_grep
ps_aux_grep

スコア1579

test CHANGED
@@ -34,6 +34,6 @@
34
34
  基本,HTTPに関する知識及びHTML5に関する知識なしではJRAからのスクレイピングは難航するでしょう.
35
35
  ここまでJRA側がスクレイピングを嫌っているので,やらない方が紳士的かと思います.
36
36
 
37
- 今回利用した遷移元からのデータ`'cname': 'pt01kld00999999993101/48',`の取得方法もAbeTakashiさんに同意のもと述べないでおきます.実際,上位20名分の情報しか得られない`cname`ですしそれ以降の情報は新たに`cname`を割りてる必要があります.
37
+ 今回利用した遷移元からのデータ`'cname': 'pt01kld00999999993101/48'`の取得方法もAbeTakashiさんの回答に同意のもと述べないでおきます.実際,上位20名分の情報しか得られない`cname`ですしそれ以降の情報は新たに`cname`を割りてる必要があります.
38
38
 
39
- あくまでエラーの出ない取得方法を上述して「可能である」という点だけ示しておきます.
39
+ あくまでエラーの出ない取得方法を上述して「tableは取得可能である」という状態にした解答を示しておきます.

5

fix answer

2022/10/24 13:47

投稿

ps_aux_grep
ps_aux_grep

スコア1579

test CHANGED
@@ -32,4 +32,8 @@
32
32
  print(pd.read_html(response.text))
33
33
  ```
34
34
  基本,HTTPに関する知識及びHTML5に関する知識なしではJRAからのスクレイピングは難航するでしょう.
35
- ここまでJRA側がスクレイピングを嫌っているので,やらない方が紳士的かと.
35
+ ここまでJRA側がスクレイピングを嫌っているので,やらない方が紳士的かと思います
36
+
37
+ 今回利用した遷移元からのデータ`'cname': 'pt01kld00999999993101/48',`の取得方法もAbeTakashiさんに同意のもと述べないでおきます.実際,上位20名分の情報しか得られない`cname`ですしそれ以降の情報は新たに`cname`を割りてる必要があります.
38
+
39
+ あくまでエラーの出ない取得方法を上述して「可能である」という点だけ示しておきます.

4

fix answer

2022/10/24 13:41

投稿

ps_aux_grep
ps_aux_grep

スコア1579

test CHANGED
@@ -32,3 +32,4 @@
32
32
  print(pd.read_html(response.text))
33
33
  ```
34
34
  基本,HTTPに関する知識及びHTML5に関する知識なしではJRAからのスクレイピングは難航するでしょう.
35
+ ここまでJRA側がスクレイピングを嫌っているので,やらない方が紳士的かと.

3

fix answer

2022/10/24 13:33

投稿

ps_aux_grep
ps_aux_grep

スコア1579

test CHANGED
@@ -17,23 +17,18 @@
17
17
 
18
18
  スクレイピングに関する規約はないものの,嫌がっている理由として「『JRA-VANデータラボ』の稼ぎに影響が出る」と考察されています.
19
19
 
20
+ ちなみに遷移元からのデータを併用してリクエストを送信,テーブル取得は可能です.
21
+ ```Python
22
+ import requests
23
+ import pandas as pd
24
+
25
+ data = {
26
+ 'cname': 'pt01kld00999999993101/48',
27
+ }
28
+
20
- ちなみに例えば[一昨日の4回東京6日の1R出馬表](https://www.jra.go.jp/JRADB/accessD.html?CNAME=pw01dde1005202204060120221022/3C)を取得できたとしても,`pd.read_html()`では
29
+ response = requests.post('https://www.jra.go.jp/JRADB/accessK.html', data=data)
30
+
31
+ response.encoding = response.apparent_encoding
32
+ print(pd.read_html(response.text))
21
33
  ```
22
- [ ˜g ”n”Ô ... 3‘–‘O 4‘–‘O
23
- 0 NaN 1 ... NaN NaN
24
- 1 NaN 2 ... NaN NaN
25
- 2 NaN 3 ... NaN NaN
26
- 3 NaN 4 ... NaN NaN
27
- 4 NaN 5 ... NaN NaN
28
- 5 NaN 6 ... NaN NaN
29
- 6 NaN 7 ... NaN NaN
30
- 7 NaN 8 ... 2022”N8ŒŽ27“ú VŠƒ –ĐV”n 10’ 18“ª15”Ô9”Ԑl‹C ... NaN
31
- 8 NaN 9 ... 2022”N7ŒŽ24“ú •Ÿ“‡ –ĐV”n 7’ 14“ª12”Ô14”Ԑl‹C ... NaN
32
- 9 NaN 10 ... 2022”N7ŒŽ17“ú •Ÿ“‡ V”n 11’ 11“ª11”Ô7”Ԑl‹C ¼... NaN
33
- 10 NaN 11 ... NaN NaN
34
- 11 NaN 12 ... NaN NaN
35
- 12 NaN 13 ... NaN NaN
36
-
37
- [13 rows x 8 columns]]
38
- ```
39
- のよう出力しかないぐらいにスクレイピングは難航するでしょう.
34
+ 基本,HTTPに関する知識及びHTML5に関する知識なしではJRAからスクレイピングは難航するでしょう.

2

fix answer

2022/10/24 13:22

投稿

ps_aux_grep
ps_aux_grep

スコア1579

test CHANGED
@@ -11,7 +11,7 @@
11
11
  print(pd.read_html(response.text))
12
12
  ```
13
13
 
14
- ちなみに https://www.jra.go.jp/JRADB/accessK.html に関してはリクエスト内容不足ですね.遷移元からのデータが必要になっています.この状態に関して次のサイトで説明がなされています.
14
+ ちなみに https://www.jra.go.jp/JRADB/accessK.html に関してはリクエスト内容不足ですね.そもそもpostリクエストのようですし遷移元からのデータが必要になっています.この状態に関して次のサイトで説明がなされています.
15
15
 
16
16
  [netkeibaをスクレイピングする方法](https://self-development.info/netkeiba%E3%82%92%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0%E3%81%99%E3%82%8B%E6%96%B9%E6%B3%95%E3%82%92%E8%A7%A3%E8%AA%AC%E3%80%90%E6%BA%96%E5%82%99%E7%B7%A8%E3%80%91/)
17
17
 

1

fix answer

2022/10/24 13:15

投稿

ps_aux_grep
ps_aux_grep

スコア1579

test CHANGED
@@ -11,7 +11,7 @@
11
11
  print(pd.read_html(response.text))
12
12
  ```
13
13
 
14
- ちなみに https://www.jra.go.jp/JRADB/accessK.html に関してはリクエスト内容不足ですね.この状態に関して次のサイトで説明がなされています.
14
+ ちなみに https://www.jra.go.jp/JRADB/accessK.html に関してはリクエスト内容不足ですね.遷移元からのデータが必要になっています.この状態に関して次のサイトで説明がなされています.
15
15
 
16
16
  [netkeibaをスクレイピングする方法](https://self-development.info/netkeiba%E3%82%92%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0%E3%81%99%E3%82%8B%E6%96%B9%E6%B3%95%E3%82%92%E8%A7%A3%E8%AA%AC%E3%80%90%E6%BA%96%E5%82%99%E7%B7%A8%E3%80%91/)
17
17