python3を用いたwebスクレイピングのやり方がわからない

###前提・実現したいこと
python3.6でシステムを作っています。
http://www.totoone.jp/blog/datawatch/index.php?id=116
のtotoの投票率をwebスクレイピングしたいです。
urlを取得する所までは来たのですが、そこから投票率の部分のみ抽出するやり方がわかりません。
一番上の行(仙台VS甲府)から、73%,16%,11%,71%,18%,11%,・・・といったように一つ一つ値を取得したいです。
###該当のソースコード

#!/usr/bin/python3
# coding: UTF-8
import requests
from bs4 import BeautifulSoup
from pprint import pprint


# URLにアクセスする 戻り値にはアクセスした結果やHTMLなどが入ったinstanceが帰ってきます
target_url = "http://www.totoone.jp/blog/datawatch/index.php?id=116"
html = requests.get(target_url)

# instanceからHTMLを取り出して、BeautifulSoupで扱えるようにパースします
soup = BeautifulSoup(html.content, "html.parser")

pprint(soup)

###補足情報(言語/FW/ツール等のバージョンなど)
OSはwindows10,cloud9を使って作っています。

行動規範の内容に同意します

回答2件

cssセレクトを使うと表の5番目の列を抽出できるので簡単に抽出できます。

python
1import requests
2from bs4 import BeautifulSoup
3
4url = 'http://www.totoone.jp/blog/datawatch/index.php?id=116'
5
6headers = {
7    'User-Agent':
8    'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko'
9}
10
11r = requests.get(url, headers=headers)
12
13if r.status_code == requests.codes.ok:
14
15    soup = BeautifulSoup(r.content, 'html5lib')
16
17    for trs in soup.select('#data_check_box2 > table > tbody > tr > td:nth-of-type(5) > table > tbody > tr'):
18        tds = [td.get_text(strip=True) for td in trs.select('td')]
19        print(tds)

投稿2019/03/09 14:17

barobaro

総合スコア1286

こんばんは。
下記で抽出できます。

Google Chromeの「検証」機能で調べると、
WEBページの構成パターンが確認しやすいと思います。

python
1# instanceからHTMLを取り出して、BeautifulSoupで扱えるようにパースします
2soup = BeautifulSoup(html.content, "html.parser")
3
4#【以下追記】
5#投票率は全てtableタグに囲まれているのでtableタグを取得
6soup_vs_and_ratio = soup.find_all("table")[1:]
7
8#奇数番目の要素に投票率があるので、奇数番目のみ抽出。（偶数番目の要素には対戦者がある） 
9soup_ratio = soup_vs_and_ratio[1::2]
10
11#tdタグのテキストに投票率があり。
12ratio_list = []
13for s in soup_ratio:
14    list_ratio_tag = s.find_all("td")
15    ratio_list_tmp = list(map(lambda x:x.text , list_ratio_tag))
16    ratio_list += ratio_list_tmp
17
18print(ratio_list)