競馬情報をpython2.7,beautifulsoupでスクレイピングしていますが、馬名の先頭行だけが取りたいのに、全部取れてしまい困っています!
# -*- coding:utf-8 -*- import urllib2 import codecs import time from bs4 import BeautifulSoup f = codecs.open('h2012_4_1_1.csv', 'w', 'utf-8') f.write('horse_name,prize'+u"\n") horse_name = "" start_url = 'http://db.netkeiba.com/horse/201210000{0}/' for i in xrange(1,6): url = start_url.format(i) soup = BeautifulSoup(urllib2.urlopen(url).read(), "lxml") time.sleep(2) horse_name_tag = soup.find('div', {'class': 'horse_title'}) if horse_name_tag != None: if horse_name_tag.find('h1') != None: horse_name = horse_name_tag.find('h1').text horse_name = "".join( [x for x in horse_name_tag.text if not x == u'\xa0' and not x == u'\n']) tr_arr = soup.select("table.db_h_race_results > tbody > tr") for tr in tr_arr: tds=tr.findAll("td") weather=tds[2].text print horse_name.strip(),weather.strip() cols = [horse_name,weather] f.write(",".join(cols) + "\n") else: continue f.close()
上記のコードを動かしますと、下記のような結果になります。
□地ゲオグラフィア 牡 黒鹿毛 雨 □地ゲオグラフィア 牡 黒鹿毛 晴 マイネルネッツ 現役 牡5歳 鹿毛 晴 マイネルネッツ 現役 牡5歳 鹿毛 曇 マイネルネッツ 現役 牡5歳 鹿毛 晴 マイネルネッツ 現役 牡5歳 鹿毛 曇 マイネルネッツ 現役 牡5歳 鹿毛 曇 マイネルネッツ 現役 牡5歳 鹿毛 晴 マイネルネッツ 現役 牡5歳 鹿毛 晴 マイネルネッツ 現役 牡5歳 鹿毛 曇 マイネルネッツ 現役 牡5歳 鹿毛 曇 マイネルネッツ 現役 牡5歳 鹿毛 晴 マイネルネッツ 現役 牡5歳 鹿毛 晴 マイネルネッツ 現役 牡5歳 鹿毛 晴 マイネルネッツ 現役 牡5歳 鹿毛 雨 マイネルネッツ 現役 牡5歳 鹿毛 晴 マイネルネッツ 現役 牡5歳 鹿毛 晴 マイネルネッツ 現役 牡5歳 鹿毛 晴 マイネルネッツ 現役 牡5歳 鹿毛 晴 マイネルネッツ 現役 牡5歳 鹿毛 曇 マイネルネッツ 現役 牡5歳 鹿毛 晴 マイネルネッツ 現役 牡5歳 鹿毛 晴
そこを、このような結果に改変したいのです。
□地ゲオグラフィア 牡 黒鹿毛 雨 マイネルネッツ 現役 牡5歳 鹿毛 晴
各馬の、先頭行だけを取り込みたいのです。
いろいろ行いましたが、うまくできません。
先輩方の御教示、よろしくお願いいたします。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2017/05/26 13:13