python2.7,beautifulsoupでの競馬情報のスクレイピングが、うまく出来ません。

netkeiba.com様から利用させて頂いております、python2.7,beautifulsoupでの競馬情報のスクレイピングが、うまく出来ません。

# -*- coding:utf-8 -*-

import urllib2
import codecs
from bs4 import BeautifulSoup

url='http://db.netkeiba.com/?pid=bms_leading&year=2017'

soup = BeautifulSoup(urllib2.urlopen(url).read(),"lxml")

tr_arr = soup.select("table.nk_tb_common.race_table_01 > tbody >tr")

print tr_arr

上記のソースコードですと何も吐き出しません。

tr_arr = soup.select("table.nk_tb_common.race_table_01 > tbody >tr")

この部分でございますが、

tr_arr = soup.select("table.nk_tb_common.race_table_01")

これですと、吐き出しますので、

url='http://db.netkeiba.com/?pid=bms_leading&year=2017'

このツリー構造を確認して

> tbody >tr

を追加したものでございますが、うまくtrを吐き出してくれません。

このtrの中にございます、td要素を取り出すことが、最終目標でございます。

先輩方の御教示、よろしくお願いいたします。

行動規範の内容に同意します

回答1件

ベストアンサー

実際にデータを取得して確認してみましたが、
tbodyの要素は存在しておらず、table直下にtrがあるようです。

ですので、

Python
1tr_arr = soup.select("table.nk_tb_common.race_table_01 > tr")

で取得できるのではないでしょうか。

投稿2017/06/26 23:26

magichan

総合スコア15898

kurosuke___

2017/06/27 06:36

magichanさんがおっしゃっているように、`tbody`要素がないのが原因ですが、どのサイトでもChrome上で見ると`tbody`があるのに、パースすると毎回`tbody`がないので、chromeが自動でつけちゃってるのかわかりませんが、`table`系の要素を取得するときは頭に入れておくとよいかもですね。