文字列が抽出できない

前提・実現したいこと

netkeibaの出馬表（過去５走成績を含むもの）から出走馬のIDを取り出そうとしています。
BeautifulSoupで取り出してみたのですが、最後にエラーが出てしまいます。

発生している問題・エラーメッセージ

AttributeError: ResultSet object has no attribute 'find_all'. You're probably treating a list of　elements like a single element. Did you call find_all() when you meant to call find()?

該当のソースコード

import requests
from bs4 import BeautifulSoup

url = 'https://race.netkeiba.com/race/shutuba_past.html?race_id=202005021212&rf=shutuba_submenu'
html = requests.get(url)
html.encoding = 'EUC-JP'
soup = BeautifulSoup(html.text, "html.parser")

import re

soup.find_all('div', attrs = {'class': 'Horse02'})   #ここまではエラーなし

#次のコードでエラーが出て、馬のID（数字）を含む文字列取り出せない。
soup.find_all('div', attrs = {'class': 'Horse02'}).find_all('a', attrs = {'href': re.compile('^/horse')})

試したこと

ここに問題に対して試したことを記載してください。

補足情報（FW/ツールのバージョンなど）

Jupyter Lab

行動規範の内容に同意します

回答2件

ベストアンサー

.find_allはリストを返すので、各アイテムを処理するにはループを回す必要があります。
また、ID部分を取得するための正規表現も間違っています。
正規表現は一例ですが参考に

python
1for div in soup.find_all('div', attrs = {'class': 'Horse02'}):
2    print(re.search("horse/(\d+)",str(div.find('a'))).group(1))
3# 2015105008
4# 2013102360
5# 2014106176
6# 2015104689
7# 2016104376
8# 2013105785
9# 2012104164
10# 2015101654
11# 2014106038
12# 2013109072
13# 2015104287
14# 2015103452
15# 2015104671
16# 2014102894
17# 2016104907
18# 2016101209
19# 2016104635
20# 2016103444

投稿2020/06/02 09:31

x98000

総合スコア1096

Azzukky

2020/06/02 10:08

x98000様ループを回すことはForestSeoさんも教えてくださったのでわかりましたが、正規表現の部分が勉強不足でわかっていません。教えていただいたコードを調べてみます。ありがとうございました。

行動規範の内容に同意します

Python
1lst = []
2for item in soup.find_all('div', attrs = {'class': 'Horse02'}):
3    lst.append(item.find('a', attrs = {'href': re.compile('^/horse')}))
4print(lst)
5```でいけますか？

投稿2020/06/02 09:03

編集2020/06/02 09:19

ForestSeo

総合スコア2724

Azzukky

2020/06/02 09:30 編集

ForestSeo様お返事ありがとうございます。上記コードを実行したら、下記の結果でした。 [None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None]