pythonとBeautifulsoupで競馬情報をスクレイピングする中で、連続して情報を取れず、苦慮しております

Question

python2.7を用いて、netkeiba.comから競馬情報をスクレイピングしております。
```python2.7
# -*- coding:utf-8 -*-

import urllib2
import codecs
import time
from bs4 import BeautifulSoup

f = codecs.open('hiyoko.csv', 'w', 'utf-8')

url='http://db.netkeiba.com/horse/2013100690/'

soup = BeautifulSoup(urllib2.urlopen(url).read(),"lxml")

horse_name_tag=soup.find('div',{'class':'horse_title'}).find('h1')
horse_name="".join([x for x in horse_name_tag.text if not x == u'\xa0' and not x == u'
'])

print horse_name.strip()
cols = [horse_name]
f.write(",".join(cols) + "
")

f.close()
```
上記のソースコードはうまく動きます。2013100690の馬の名前がプリントされます。

問題は、ここからさらにソースコードを改変して、2013100690から例えば、2013100699、

あわよくば、2013100000から2013199999までの馬の名前を入手出来ればと思っております。

そこで、下記のようなソースコードに改変したところ、うまく動きません。
```python2.7

# -*- coding:utf-8 -*-

import urllib2
import codecs
import time
from bs4 import BeautifulSoup

f = codecs.open('hiyoko.csv', 'w', 'utf-8')

url='http://db.netkeiba.com/horse/201310069{0}/'

for i in xrange(1,9):
    url = url.format( i )
    soup = BeautifulSoup(urllib2.urlopen(url).read(),"lxml")
    time.sleep(1)	
    horse_name_tag=soup.find('div',{'class':'horse_title'}).find(('div',{'class':'horse_title'}).find('h1'))
    horse_name="".join([x for x in horse_name_tag.text if not x == u'\xa0' and not x == u'
'])

    print horse_name.strip()
    cols = [horse_name]
    f.write(",".join(cols) + "
")

f.close()
```

```ここに言語を入力
url='http://db.netkeiba.com/horse/201310069{0}/'

```
上記のforの回し方の考え方、そのものが不適切ではないかと思い、いろいろ調べましたが、上手く動きません。

urlに変数を挿入して回すこと自体が、間違いなのでしょうか。苦慮しております。

改善方法も含めまして、先輩方の御教示、よろしくお願いいたします。

Accepted Answer

## 長文になったのでまとめを最初に書いときます
* `find`にタプルを渡してるのでエラーになってた

* `url`の変数を上書きしない

* DOM要素の指定ミス(最初の`div`タグの指定を２回行っていたため、`h1`が見つからず`None`が返ってた)

* ページが変だったとき（馬の情報が空だったとき）はDOM要素が見つからず`None`が返るので、そのときはスキップ

## 以下、試行の変遷記録(笑)
最初に言っておくと、Python3しか書けないのでPython3で書きました。
連番をurlに埋め込んで使うのは良いと思いますが、ページが変なページで取得したものがNoneだったらエラーになってしまいます。
なのでifで回避すれば動くと思います。
以下のコードは取得のみなのでフォーマットを整えてcsv出力はしてません。
```python
# -*- coding:utf-8 -*-

from urllib.request import urlopen
import time
from bs4 import BeautifulSoup

url = 'http://db.netkeiba.com/horse/201310069{0}/'
horse_name_list = []

for i in range(1, 99999):
    soup = BeautifulSoup(urlopen(url.format(i)), "lxml")
    time.sleep(5)
    div = soup.find('div', class_='horse_title')

    # divがNoneTypeObjectだったらcontinue
    if div != None:
        horse_name = div.h1.text
        if horse_name != None:
            horse_name_list.append(horse_name)
        else:
            continue
    else:
        print("取得できないから飛ばすよ")
        continue

print(horse_name_list)

```

求めているものと違ったら申し訳ありません。

## 追記：
2.7で質問にあるコードでいろいろやってみたのですが、なんかxrangeで返るイテレータをforで回してurlに入れ込んでもurlが変わらないみたいです。
ずっと`http://db.netkeiba.com/horse/2013100691/`のままなので同じものしか取得できませんでした。
2.7の仕様はよく分かってませんので、きっとなにかがPython3と違うのでしょう。
`print i` をするとちゃんと順番にたされた数字が返ってきてるのですが・・・
**※このへんは変数urlを上書きしてるのが原因でした。一番下で言及します**

なのでいろいろやってこうなりました。
```python
# -*- coding:utf-8 -*-

import urllib2
import codecs
import time
from bs4 import BeautifulSoup

f = codecs.open('hiyoko.csv', 'w', 'utf-8')
horse_name = ""

for i in xrange(1, 10):
    url = 'http://db.netkeiba.com/horse/201310069%d/' % i
    soup = BeautifulSoup(urllib2.urlopen(url).read(),"lxml")
    time.sleep(5)
    horse_name_tag = soup.find('div',{'class':'horse_title'})
    if horse_name_tag != None:
        horse_name_tag.find('h1')
        horse_name = "".join([x for x in horse_name_tag.text if not x == u'\xa0' and not x == u'
'])
        print horse_name.strip()
        cols = [horse_name]
        f.write(",".join(cols) + "
")
    else:
        continue

f.close()
```
## 追記：

質問者様のコードでは
```python
 horse_name_tag=soup.find('div',{'class':'horse_title'}).find(('div',{'class':'horse_title'}).find('h1'))
```
の部分で、find関数にタプルを渡してしまっています。（丸括弧が多い）
この部分ですね。
```python
soup.find('div',{'class':'horse_title'}).find( ('div',{'class':'horse_title'}).find('h1') )
```
このまま実行すると
```
AttributeError: 'tuple' object has no attribute 'find'
```
というエラーになります。なので、
```python
soup.find('div',{'class':'horse_title'}).find('div',{'class':'horse_title'}).find('h1')
```
これでOK。（違う理由でこれだとエラーになります。以下参照）

おそらくただのタイプミスだとは思いますが一応。

上記のままだとエラーになる理由がこれ。
```python
horse_name_tag=soup.find('div',{'class':'horse_title'}).find('div',{'class':'horse_title'}).find('h1')
```
ここで`class="horse_title"`の`div`の下でまた`class="horse_title"`の`div`を探しちゃってるのでNoneになります。
サイト内で確認したら`class="horse_title"`の`div`の直下に`h1`があるので
```python
horse_name_tag=soup.find('div',{'class':'horse_title'}).find('h1')
```
これで取得できます。
あとはページが変だったときにNoneが返るのをifで分岐してエラー回避して・・・
```python
# -*- coding:utf-8 -*-

import urllib2
import codecs
import time
from bs4 import BeautifulSoup

f = codecs.open('hiyoko.csv', 'w', 'utf-8')
horse_name = ""
start_url = 'http://db.netkeiba.com/horse/201310069{0}/'

for i in xrange(1, 10):
    url = start_url.format(i)
    soup = BeautifulSoup(urllib2.urlopen(url).read(), "lxml")
    time.sleep(1)
    horse_name_tag = soup.find('div', {'class': 'horse_title'})
    
    if horse_name_tag != None:
        
        if horse_name_tag.find('h1') != None:
            horse_name = horse_name_tag.find('h1').text
            horse_name = "".join(
                [x for x in horse_name_tag.text if not x == u'\xa0' and not x == u'
'])
            print horse_name.strip()
            cols = [horse_name]
            f.write(",".join(cols) + "
")

    else:
        continue

f.close()
```

これで動くはずです。


最初コード書いたときに、最初に定義したurlという変数をfor内で上書きしちゃってました。

`format`関数は文字列内に`{0}`などがなくてもエラー吐かないんですね・・・

確か同スコープ内なので、最初のurlはstart_urlという変数にいれて、for内でフォーマットして使うものはurlとしました。

## 最後にもう一度まとめ
* `find`にタプルを渡してるのでエラーになってた

* `url`の変数を上書きしない

* DOM要素の指定ミス(最初の`div`タグの指定を２回行っていたため、`h1`が見つからず`None`が返ってた)

* ページが変だったとき（馬の情報が空だったとき）はDOM要素が見つからず`None`が返るので、そのときはスキップ

あとは`xrange(1, 100000)`にすれば2013100000から2013199999までの情報がとれます。

`sleep(1)`だとちょっと不安なのでもっと増やしたほうが個人的にはいいですが・・・
`import random`をして`time.sleep(random.uniform(5, 10))`とかにすると5sec - 10secの間でランダムな秒数待てます。

ただこれだけ待ってると99999件取得した場合に尋常じゃない時間がかかります。

普通1秒に１アクセスでも問題にはならないようですが、岡崎市図書館事件のように、相手側のサーバーでの通信方式に不備があると障害を引き起こすこともあります。

一番は相手側にスクレイピングの許可をもらえることですね。


長文で申し訳ないです・・・

Answer

```Ruby # encoding: utf-8 require'kconv' require'open-uri' require'certified' url = 'http://db.netkeiba.com/horse/20131' 99_999.times do |num| data = open(url + format('%05d', num), &:read).toutf8 puts data.scan(%r{(.+?) \| 競走馬データ - netkeiba.com}) sleep(4) end ``` 実行結果例 ``` コスモカナディアンバトルゾーンアイリーアイリーマイネルアーベントナンベーサンクエリブレイズガールビッグダディヘビデューティーアリュエット ``` 私はRubyしか分からない人間ですが作ってみました。 20131を固定して、下五桁をtimesで増やしながらループを回すことにしました。馬の名前はタイトルからとることにしました。「2013100000から2013199999まで」をところどころ確認してみると情報が登録されていないページがありました。ループで回して情報をとることはできるようです。

長文になったのでまとめを最初に書いときます

以下、試行の変遷記録(笑)

追記：

追記：

最後にもう一度まとめ

関連した質問