beautiful soup すぐ下の同レベルのタグの取得について

Question

下記のような構造のhtmlから、各タグの直下のタグを取得したい場合、取得が上手くいかないので教えていただけますでしょうか。下記の方法では出来たのですが、直感的ではないので、thタグのクラスを使って取得したいと考えてます。例えば、単勝のthのすぐ下のtdの2という数字や複勝のthの2番目の下のtdの170という数字を取得したいと考えてます。取得したいHTMLの構造単勝 2 450 2 複勝 2
5
6 170
1,340
310 2
12
6 枠連 1 - 3 1,170 5 馬連 2 - 5 21,850 39 試したこと上手く行ったやり方リストの取得 ①td_list=html.find_all("td") ②fuku = td_list[0] 上手くいかなかったやり方上記のような取得の仕方ではなく、 ①this_td = html.find("th", class_="fuku") ②fuku = this_td.sibling のようなやり方でスクレイピングをしたいと思うのですが、エラーになります。

Accepted Answer

確認しましたが、私の環境では ``html.find("th", class_='fuku')`` でも ``html.find("th", attrs={'class':'fuku'})`` も問題なく動作しております。（下記のサンプル）ただ、``this_td.next_siblings`` は改行コード`` ``も一つの要素として取得しているようで、``this_td.next_sibling`` では得られる結果が``" "``となるようです。個人的には ``select("th.fuku + td")`` を使ったほうが簡単に記述できる気がします。 ```Python from bs4 import BeautifulSoup import urllib.request html_data = """ 単勝 2 450 2 複勝 2
5
6 170
1,340
310 2
12
6 枠連 1 - 3 1,170 5 馬連 2 - 5 21,850 39 """ html = BeautifulSoup(html_data, "lxml") this_td = html.find("th", class_='fuku') print(list(this_td.next_siblings)) # [' ', 2
5
6, ' ', 170
1,340
310, ' ', 2
12
6, ' '] this_td = html.find("th", attrs={'class':'fuku'}) print(list(this_td.next_siblings)) # [' ', 2
5
6, ' ', 170
1,340
310, ' ', 2
12
6, ' '] td = html.select("th.fuku + td") print(td) # [2
5
6] ```

Answer

私なら（この構造が前提として） ``` this_td = html.find("th", class_="fuku") td_list = this_td.parent.find_all("td") ``` でtdのリストを得てから取り出しますね。 ``` >>> from bs4 import BeautifulSoup >>> html = BeautifulSoup(""" ... 単勝 ... 2 ... 450 ... 2 ... ... ... 複勝 ... 2
5
6 ... 170
1,340
310 ... 2
12
6 ... ... ... 枠連 ... 1 - 3 ... 1,170 ... 5 ... ... ... 馬連 ... 2 - 5 ... 21,850 ... 39 ... ... """, "lxml") >>> this_td = html.find("th", class_="fuku") >>> td_list = this_td.parent.find_all("td") >>> td_list [2
5
6, 170
1,340
310, 2
12
6] ```

Answer

テーブルの1行ずつのデータ取りたいってことですかね？
find_all(“tr”)してforとかで回せば取れそうですが試してみたでしょうか？