複数のテーブルから､任意のひとつをスクレイピングするには

以下のウェッブページから､テーブルタグをスクレイピングしようと､おもっています｡
統計Web

ページには､複数のテーブルがあります｡

この場合､たとえば､２つ目のテーブルのタグと数値をスクレイピングするには､どのようにしたら良いのでしょう｡

（やってみたこと）

python
1from bs4 import BeautifulSoup
2from urllib import request
3
4url ='https://bellcurve.jp/statistics/course/18766.html'
5response=request.urlopen(url)
6soup=BeautifulSoup(response)
7print(soup.table[1])
8
9# 以下エラーメッセージです｡
10
11
12KeyError                       Traceback (most recent call last)
13<ipython-input-62-1e9af06e8d16> in <module>
14----> 1 print(soup.table[1])
15
16/Applications/anaconda3/lib/python3.6/site-packages/bs4/element.py in __getitem__(self, key)
17   1014         """tag[key] returns the value of the 'key' attribute for the tag,
18   1015         and throws an exception if it's not there."""
19-> 1016         return self.attrs[key]
20   1017 
21   1018     def __iter__(self):
22
23KeyError: 1

行動規範の内容に同意します

回答2件

soup.table の場合、最初に見つかった table タグを取得することになります。
複数ある場合に2番目の table タグを取得したい場合は、findAll("table")[1] とすればよいでしょう。

python
1from bs4 import BeautifulSoup
2from urllib import request
3
4url = "https://bellcurve.jp/statistics/course/18766.html"
5response = request.urlopen(url)
6soup = BeautifulSoup(response)
7
8tables = soup.findAll("table")
9
10print(tables[1])
11# <table>
12# <tbody>
13# <tr><th>毛色</th><th>度数</th></tr>
14# <tr><td>白</td><td>27</td></tr>
15# <tr><td>黒</td><td>20</td></tr>
16# <tr><td>灰色</td><td>18</td></tr>
17# <tr><td>オレンジ</td><td>15</td></tr>
18# <tr><td>茶トラ</td><td>10</td></tr>
19# <tr><td>キジトラ</td><td>7</td></tr>
20# <tr><td>サビ</td><td>3</td></tr>
21# <tr><td>合計</td><td>100</td></tr>
22# </tbody>
23# </table>

投稿2019/10/28 05:48

tiitoi

総合スコア21960

tiitoi

2019/10/28 05:49

すいません。重複しました。

okahijiki

2019/10/28 06:15

できましたー｡

行動規範の内容に同意します

ベストアンサー

こんにちは。

以下でどうでしょう？ (※URLのドメインを、差し障りのないものに変えています。）

python3
1from bs4 import BeautifulSoup
2from urllib import request
3
4url ='https://example.com/statistics/course/18766.html'
5response = request.urlopen(url)
6soup = BeautifulSoup(response)
7tables = soup.find_all('table')
8print(tables[1])