python2.7,beautifulsoupでのスクレイピングが、うまく出来ません。

###前提・実現したいこと
python初心者でございます。
競馬情報をbeautifulsoupでスクレイピングしておりますが、以下の３点に苦慮しております。

１．forで回すのですが、なぜか、１行目だけをprintを続けております。
スクリプトは以前、成功したモノと対比しておりますが、２行目以降を読み込まない原因が分からず、苦慮しております。

**→tds=tr1.findAll("td")に差し替えることで、解決したと考えています。
**

２．項目の中の「負担重量」をスクレイピングすることが出来ません（他は成功しております）
単純にtd.textと思いますが、何故か、取れません。

３．右端の２の数字の出所も不明でございます。

###試したソースコード、発生したエラーコードの結果

# -*- coding:utf-8 -*-

import urllib2
import codecs
import time
from bs4 import BeautifulSoup
f = codecs.open('race.csv', 'w', 'utf-8')
#f.write('frame_number,horse_number,horse_name,sex_age,weight,jockey_name,horse_house,horse_weight,horse_odds,popularity'+u"\n")

url='http://race.netkeiba.com/?pid=race_old&id=c201604020801'

soup = BeautifulSoup(urllib2.urlopen(url).read(),"lxml")

tr_arr = soup.select(" table.race_table_old > tr ")
#ｿｰｽｺｰﾄﾞは確認済みです
for tr1 in tr_arr:
    
    tds=tr1.findAll("td")
    
    frame_number=tds[0].text	
    #list型であることは確認済みです
    
    print frame_number.strip()


・エラーメッセージ

C:\Users\satoru\horse>test_race-scan.py
Traceback (most recent call last):
  File "C:\Users\satoru\horse\test_race-scan.py", line 20, in <module>
    frame_number=tds[0].text
IndexError: list index out of range

C:\Users\satoru\horse>

###試したこと
findAllを用いて、for文で回す以前に、スクレイピング自体にエラーが発生しました。

該当ソースコードを確認して、tbodyが無いこと、リスト型であること等を踏まえたうえで、
前回のソースコードを参考にスクリプトを考えましたが、うまくいきません。
tds単独でprintさせた場合は、一斉に、tdが放出されますので、この部分のスクリプトは大丈夫と考えております。

リスト型であるはずなのに、数字が違うということがうまく理解できません。

御教示よろしくお願いいたします。

###補足情報(言語/FW/ツール等のバージョンなど)
python2.7

行動規範の内容に同意します

回答1件

ベストアンサー

forで回すのですが、なぜか、１行目だけをprintを続けております。

ここで、毎回同じものをtdsに代入しているからですね。

lang
1for tr in tr_arr:
2    time.sleep(1)
3    tds=tr_arr

それに、tr_arr = soup.select("table.race_table_old > tr > td")の最後がtdなのはおかしくないですか？
この方法は、機種名や血統情報などの項目をひとつだけ取得する時のものだったはずです。

正しい方法は、
https://teratail.com/questions/44294
の時とほとんど同じことをすれば良いはずです。
上記の質問のコードと今回のコードをもう一度よく比べてみて下さい。

2と3は、1を直せば上手く行くと思います。
但し、掲載していただいたコードは、変数がダブっていたり足りなかったりして乱れているので、
再度掲載する場合はそれを修正してください。

投稿2016/08/24 13:24

編集2016/08/24 13:25

argius

総合スコア9396

akakage13

2016/08/25 12:17

argius様、いつもありがとうございます。 https://teratail.com/questions/44294 を参考に、基本にたちかえって考えましたが、更新で、お示しさせていただいた通りの、基本的なエラーに悩んでおります。御教示よろしくお願いいたします。失礼します。

Lhankor_Mhy

2016/08/25 12:54

横から失礼します。　スクレイピング対象ページを見ましたが、tr_arr[0]はタイトル行なので全てth要素のようです。tr_arr[0].findAll("td")はマッチするノードがないのではないかと拝察します。 BeautifulSoupは使ったことがないのでよく分かりませんが、空のリストが返るのでは。

argius

2016/08/25 12:59 編集

Pythonの場合、エラーで情報がたくさん（今回の場合はそうでもないですが）出てきますが、最後の行、今回なら IndexError: list index out of range の部分がエラーメッセージです。 Pythonに限らずですが、エラーが出たときにはこのメッセージを手掛かりに何が起こっているのか判断します。プログラミングをする以上、この作業は避けられない問題です。なので調べ方を徐々に覚えていってください。次回からは、メッセージをそのままググるなり、英文を訳してみるなりして、自分なりに判断してみて下さい。分からないのは仕方ないですが、そこで立ち止まる前に、できることがあるはずです。それが嫌なら、Pythonの教科書なりで基礎から勉強するべきです。そうすればこのエラーは教科書で知ることができるでしょう。話を戻します。今回のlist index out of rangeは、Pythonに限らずプログラミングでは良く見られるエラーで、「リストのインデックスが範囲外である」と言っています。インデックスとは、配列やリストのゼロから始まる番号のことです。 1番目の要素は[0]、2番目の要素は[1]を付けてアクセスします。この0,1がインデックスです。 a = ["a", "b"]というサイズ2のリストがあったら、a[0]とa[1]は要素があるので問題ないですが、a[2]はlist index out of rangeになります。 tds[0]がエラーになっているのは、リストが空であることを意味しています。tds=[]と同じ状態なので、tds[0]すらindex out of rangeになります。ではなぜ、tdsが空のリストになっているか、つまりtr1.findAll("td")の結果が空リストになるか、というのがやっと本当の現時点での問題になります。 HTMLを見てみると分かるのですが、最初の<tr>の下には、<td>がありません。<th>しか無いのです。なので、tr1.findAll("td")の結果が空リストになるのは正しいのです。これはnetkeiba.comさんのHTMLの作り方がバラバラなせいなので、仕方ないですね。 <thead>と<tbody>をちゃんと書いていればこんなことにはならないんですけど。（さらに言うと、2番目の<tr>には何も入っていません。これはひどいですね...）ではどうすれば良いのかと言うと、if文でtdsの長さをチェックして、長さが取得しようとしている項目数のゼロでない、つまりからの場合はその行の処理をスキップするという風にすれば良いです。長さはlen(tds)で判断できます。 if文の書き方は、調べてみて下さい。

akakage13

2016/08/26 11:51

argius様、いつも御教示ありがとうございました。自分なりに調べて、以下のスクリプトを実行しましたらスキップすることが出来ました。教育的な御教示に感謝しております。今後とも、よろしくお願いいたします。（一部抜粋です） for tr in tr_arr: time.sleep(1) tds = tr.findAll("td") if len( tds ) > 1: frame_number=tds[0].text

argius

2016/08/26 12:28

上手く行って良かったです。繰り返しになりますが、 HTMLというのはきちんと書いているサイトもたくさんありますが、そうでないサイトもけっこうあります。なので、人間がHTMLコードを読んで構造を理解したうえで（Pythonに）どういう動作をさせれば良いかを考える必要があります。エラーメッセージが読めるようになれば見なくても分かることが多くなりますが、まだ難しいと思うので、今はこの方法でやってみて下さい。あとはひたすらprintです。 trやtdsをprintすれば思った通りにselectできているかどうか分かります。がんばって下さい。

akakage13

2016/08/27 11:03

argius様、丁寧なお返事まで下さりまして、恐縮しております。これからも、「自分で出来る範囲で最大限考える」教えを守り、がんばります。今後とも、御教示、よろしくお願いいたします。

行動規範の内容に同意します