競馬情報をpython,beautifulsoupでスクレイピングしていますが、馬名の先頭行だけが取りたいのに、全部取れてしまい困っています!

競馬情報をpython2.7,beautifulsoupでスクレイピングしていますが、馬名の先頭行だけが取りたいのに、全部取れてしまい困っています!

# -*- coding:utf-8 -*-

import urllib2
import codecs
import time
from bs4 import BeautifulSoup

f = codecs.open('h2012_4_1_1.csv', 'w', 'utf-8')
f.write('horse_name,prize'+u"\n")

horse_name = ""
start_url = 'http://db.netkeiba.com/horse/201210000{0}/'

for i in xrange(1,6):
    url = start_url.format(i)
    soup = BeautifulSoup(urllib2.urlopen(url).read(), "lxml")
    time.sleep(2)
    horse_name_tag = soup.find('div', {'class': 'horse_title'})
    
    if horse_name_tag != None:

        if horse_name_tag.find('h1') != None:
            horse_name = horse_name_tag.find('h1').text
            horse_name = "".join(
                [x for x in horse_name_tag.text if not x == u'\xa0' and not x == u'\n'])
                
        tr_arr = soup.select("table.db_h_race_results > tbody > tr")
        for tr in tr_arr:
            tds=tr.findAll("td")
            weather=tds[2].text	
            
            print horse_name.strip(),weather.strip()
            cols = [horse_name,weather]
            f.write(",".join(cols) + "\n")

    else:
        continue

f.close()

上記のコードを動かしますと、下記のような結果になります。

□地ゲオグラフィア   牡 黒鹿毛 雨
□地ゲオグラフィア   牡 黒鹿毛 晴
マイネルネッツ  現役 牡5歳 鹿毛 晴
マイネルネッツ  現役 牡5歳 鹿毛 曇
マイネルネッツ  現役 牡5歳 鹿毛 晴
マイネルネッツ  現役 牡5歳 鹿毛 曇
マイネルネッツ  現役 牡5歳 鹿毛 曇
マイネルネッツ  現役 牡5歳 鹿毛 晴
マイネルネッツ  現役 牡5歳 鹿毛 晴
マイネルネッツ  現役 牡5歳 鹿毛 曇
マイネルネッツ  現役 牡5歳 鹿毛 曇
マイネルネッツ  現役 牡5歳 鹿毛 晴
マイネルネッツ  現役 牡5歳 鹿毛 晴
マイネルネッツ  現役 牡5歳 鹿毛 晴
マイネルネッツ  現役 牡5歳 鹿毛 雨
マイネルネッツ  現役 牡5歳 鹿毛 晴
マイネルネッツ  現役 牡5歳 鹿毛 晴
マイネルネッツ  現役 牡5歳 鹿毛 晴
マイネルネッツ  現役 牡5歳 鹿毛 晴
マイネルネッツ  現役 牡5歳 鹿毛 曇
マイネルネッツ  現役 牡5歳 鹿毛 晴
マイネルネッツ  現役 牡5歳 鹿毛 晴

そこを、このような結果に改変したいのです。

□地ゲオグラフィア   牡 黒鹿毛 雨
マイネルネッツ  現役 牡5歳 鹿毛 晴

各馬の、先頭行だけを取り込みたいのです。

いろいろ行いましたが、うまくできません。

先輩方の御教示、よろしくお願いいたします。

行動規範の内容に同意します

回答1件

ベストアンサー

for tr in tr_arr:

を

for tr in tr_arr[:1]:

と変えてどうでしょう

投稿2017/05/26 12:32

YouheiSakurai

総合スコア6142

akakage13

2017/05/26 13:13

YouheiSakurai様、上手く動きました！！！本当にありがとうございました！！！

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

競馬情報をpython,beautifulsoupでスクレイピングしていますが、馬名の先頭行だけが取りたいのに、全部取れてしまい困っています!

関連した質問