トップ Python 2.7に関する質問 pythonとBeautifulsoupで競馬情報をスクレイピングする中で、連続して情報を取れず、苦慮しております

編集履歴

回答編集履歴

秒数

2017/05/08 06:22

投稿

kurosuke___

スコア217

answer CHANGED Viewed

@@ -168,9 +168,13 @@
 あとは`xrange(1, 100000)`にすれば2013100000から2013199999までの情報がとれます。
 `sleep(1)`だとちょっと不安なのでもっと増やしたほうが個人的にはいいですが・・・
-`import random`をして`time.sleep(random.uniform(30, 50))`とかにすると10sec - 20secの間でランダムな秒数待てます。
+`import random`をして`time.sleep(random.uniform(5, 10))`とかにすると5sec - 10secの間でランダムな秒数待てます。
-ただこれだけ待ってると99999件取得した場合に半月前後かかるとおもいます・・・ｗ
+ただこれだけ待ってると99999件取得した場合に尋常じゃない時間がかかります。
+普通1秒に１アクセスでも問題にはならないようですが、岡崎市図書館事件のように、相手側のサーバーでの通信方式に不備があると障害を引き起こすこともあります。
+一番は相手側にスクレイピングの許可をもらえることですね。
 長文で申し訳ないです・・・

HEY

2017/05/08 06:22

投稿

kurosuke___

スコア217

answer CHANGED Viewed

@@ -167,10 +167,10 @@
 あとは`xrange(1, 100000)`にすれば2013100000から2013199999までの情報がとれます。
-`sleep(1)`だとちょっと不安なのでもっと増やしたほうが良いと思います。
+`sleep(1)`だとちょっと不安なのでもっと増やしたほうが個人的にはいいですが・・・
-`import random`をして`time.sleep(random.uniform(30, 50))`とかにすると30sec - 50secの間でランダムな秒数待てます。
+`import random`をして`time.sleep(random.uniform(30, 50))`とかにすると10sec - 20secの間でランダムな秒数待てます。
-あとは寝る前に実行すればいいと思います。
+ただこれだけ待ってると99999件取得した場合に半月前後かかるとおもいます・・・ｗ
 長文で申し訳ないです・・・

ごめん間違えて無編集でOKしちゃった

2017/05/08 06:18

投稿

kurosuke___

スコア217

answer CHANGED Viewed

@@ -120,7 +120,6 @@
 import codecs
 import time
 from bs4 import BeautifulSoup
-import random
 f = codecs.open('hiyoko.csv', 'w', 'utf-8')
 horse_name = ""
@@ -129,7 +128,7 @@
 for i in xrange(1, 10):
     url = start_url.format(i)
     soup = BeautifulSoup(urllib2.urlopen(url).read(), "lxml")
-    time.sleep(random.uniform(1, 10))
+    time.sleep(1)
     horse_name_tag = soup.find('div', {'class': 'horse_title'})
     if horse_name_tag != None:

2017/05/08 06:10

投稿

kurosuke___

スコア217

answer CHANGED Viewed

File without changes

pep8違反修正

2017/05/08 06:09

投稿

kurosuke___

スコア217

answer CHANGED Viewed

@@ -120,22 +120,28 @@
 import codecs
 import time
 from bs4 import BeautifulSoup
+import random
 f = codecs.open('hiyoko.csv', 'w', 'utf-8')
 horse_name = ""
 start_url = 'http://db.netkeiba.com/horse/201310069{0}/'
 for i in xrange(1, 10):
     url = start_url.format(i)
-    soup = BeautifulSoup(urllib2.urlopen(url).read(),"lxml")
+    soup = BeautifulSoup(urllib2.urlopen(url).read(), "lxml")
-    time.sleep(1)
+    time.sleep(random.uniform(1, 10))
-    horse_name_tag = soup.find('div',{'class':'horse_title'})
+    horse_name_tag = soup.find('div', {'class': 'horse_title'})
     if horse_name_tag != None:
         if horse_name_tag.find('h1') != None:
             horse_name = horse_name_tag.find('h1').text
+            horse_name = "".join(
-            horse_name = "".join([x for x in horse_name_tag.text if not x == u'\xa0' and not x == u'\n'])
+                [x for x in horse_name_tag.text if not x == u'\xa0' and not x == u'\n'])
             print horse_name.strip()
             cols = [horse_name]
             f.write(",".join(cols) + "\n")
     else:
         continue

また編集

2017/05/08 06:08

投稿

kurosuke___

スコア217

answer CHANGED Viewed

@@ -106,7 +106,7 @@
 ```python
 horse_name_tag=soup.find('div',{'class':'horse_title'}).find('div',{'class':'horse_title'}).find('h1')
 ```
-ここで`class=horse_title`の`div`の下でまた`class=horse_title`の`div`を探しちゃってるのでNoneになります。
+ここで`class="horse_title"`の`div`の下でまた`class="horse_title"`の`div`を探しちゃってるのでNoneになります。
 サイト内で確認したら`class="horse_title"`の`div`の直下に`h1`があるので
 ```python
 horse_name_tag=soup.find('div',{'class':'horse_title'}).find('h1')
@@ -160,5 +160,12 @@
 * ページが変だったとき（馬の情報が空だったとき）はDOM要素が見つからず`None`が返るので、そのときはスキップ
+あとは`xrange(1, 100000)`にすれば2013100000から2013199999までの情報がとれます。
+`sleep(1)`だとちょっと不安なのでもっと増やしたほうが良いと思います。
+`import random`をして`time.sleep(random.uniform(30, 50))`とかにすると30sec - 50secの間でランダムな秒数待てます。
+あとは寝る前に実行すればいいと思います。
 長文で申し訳ないです・・・

さいごっていうのやめる

2017/05/08 05:59

投稿

kurosuke___

スコア217

answer CHANGED Viewed

@@ -88,7 +88,7 @@
 の部分で、find関数にタプルを渡してしまっています。（丸括弧が多い）
 この部分ですね。
 ```python
-find( ('div',{'class':'horse_title'}).find('h1') )
+soup.find('div',{'class':'horse_title'}).find( ('div',{'class':'horse_title'}).find('h1') )
 ```
 このまま実行すると
 ```
@@ -96,17 +96,18 @@
 ```
 というエラーになります。なので、
 ```python
-find('div',{'class':'horse_title'}).find('h1')
+soup.find('div',{'class':'horse_title'}).find('div',{'class':'horse_title'}).find('h1')
 ```
-これでOK。
+これでOK。（違う理由でこれだとエラーになります。以下参照）
 おそらくただのタイプミスだとは思いますが一応。
-あと
+上記のままだとエラーになる理由がこれ。
 ```python
-horse_name_tag=soup.find('div',{'class':'horse_title'}).find(('div',{'class':'horse_title'})).find('h1')
+horse_name_tag=soup.find('div',{'class':'horse_title'}).find('div',{'class':'horse_title'}).find('h1')
 ```
 ここで`class=horse_title`の`div`の下でまた`class=horse_title`の`div`を探しちゃってるのでNoneになります。
-サイト内で確認したら`class=horse_title`の`div`の直下に`h1`があるので
+サイト内で確認したら`class="horse_title"`の`div`の直下に`h1`があるので
 ```python
 horse_name_tag=soup.find('div',{'class':'horse_title'}).find('h1')
 ```
@@ -129,18 +130,19 @@
     time.sleep(1)
     horse_name_tag = soup.find('div',{'class':'horse_title'})
     if horse_name_tag != None:
-        horse_name_tag.find('h1')
+        if horse_name_tag.find('h1') != None:
+            horse_name = horse_name_tag.find('h1').text
-        horse_name = "".join([x for x in horse_name_tag.text if not x == u'\xa0' and not x == u'\n'])
+            horse_name = "".join([x for x in horse_name_tag.text if not x == u'\xa0' and not x == u'\n'])
-        print horse_name.strip()
+            print horse_name.strip()
-        cols = [horse_name]
+            cols = [horse_name]
-        f.write(",".join(cols) + "\n")
+            f.write(",".join(cols) + "\n")
     else:
         continue
 f.close()
 ```
-これで動きます。
+これで動くはずです。
 最初コード書いたときに、最初に定義したurlという変数をfor内で上書きしちゃってました。

さいごのさいごの編集

2017/05/08 05:52

投稿

kurosuke___

スコア217

answer CHANGED Viewed

@@ -85,7 +85,7 @@
 ```python
  horse_name_tag=soup.find('div',{'class':'horse_title'}).find(('div',{'class':'horse_title'}).find('h1'))
 ```
-の部分で、find関数にタプルを渡してしまっています。（丸括弧を閉じる場所が違う）
+の部分で、find関数にタプルを渡してしまっています。（丸括弧が多い）
 この部分ですね。
 ```python
 find( ('div',{'class':'horse_title'}).find('h1') )
@@ -94,9 +94,9 @@
 ```
 AttributeError: 'tuple' object has no attribute 'find'
 ```
-というエラーになります。
+というエラーになります。なので、
 ```python
-find( ('div',{'class':'horse_title'}) ).find('h1')
+find('div',{'class':'horse_title'}).find('h1')
 ```
 これでOK。
 おそらくただのタイプミスだとは思いますが一応。

さいごの編集

2017/05/08 05:45

投稿

kurosuke___

スコア217

answer CHANGED Viewed

@@ -85,7 +85,7 @@
 ```python
  horse_name_tag=soup.find('div',{'class':'horse_title'}).find(('div',{'class':'horse_title'}).find('h1'))
 ```
-の部分で、find関数にタプルを渡してしまっています。（丸括弧が多い）
+の部分で、find関数にタプルを渡してしまっています。（丸括弧を閉じる場所が違う）
 この部分ですね。
 ```python
 find( ('div',{'class':'horse_title'}).find('h1') )
@@ -95,7 +95,10 @@
 AttributeError: 'tuple' object has no attribute 'find'
 ```
 というエラーになります。
+```python
+find( ('div',{'class':'horse_title'}) ).find('h1')
+```
+これでOK。
 おそらくただのタイプミスだとは思いますが一応。
 あと

加筆修正

2017/05/08 05:43

投稿

kurosuke___

スコア217

answer CHANGED Viewed

@@ -49,6 +49,8 @@
 ずっと`http://db.netkeiba.com/horse/2013100691/`のままなので同じものしか取得できませんでした。
 2.7の仕様はよく分かってませんので、きっとなにかがPython3と違うのでしょう。
 `print i` をするとちゃんと順番にたされた数字が返ってきてるのですが・・・
+**※このへんは変数urlを上書きしてるのが原因でした。一番下で言及します**
 なのでいろいろやってこうなりました。
 ```python
 # -*- coding:utf-8 -*-
@@ -140,6 +142,8 @@
 最初コード書いたときに、最初に定義したurlという変数をfor内で上書きしちゃってました。
+`format`関数は文字列内に`{0}`などがなくてもエラー吐かないんですね・・・
 確か同スコープ内なので、最初のurlはstart_urlという変数にいれて、for内でフォーマットして使うものはurlとしました。
 ## 最後にもう一度まとめ

長文になったのでまとめを最初に書きます。

2017/05/08 05:41

投稿

kurosuke___

スコア217

answer CHANGED Viewed

@@ -1,3 +1,13 @@
+## 長文になったのでまとめを最初に書いときます
+* `find`にタプルを渡してるのでエラーになってた
+* `url`の変数を上書きしない
+* DOM要素の指定ミス(最初の`div`タグの指定を２回行っていたため、`h1`が見つからず`None`が返ってた)
+* ページが変だったとき（馬の情報が空だったとき）はDOM要素が見つからず`None`が返るので、そのときはスキップ
+## 以下、試行の変遷記録(笑)
 最初に言っておくと、Python3しか書けないのでPython3で書きました。
 連番をurlに埋め込んで使うのは良いと思いますが、ページが変なページで取得したものがNoneだったらエラーになってしまいます。
 なのでifで回避すれば動くと思います。
@@ -132,7 +142,7 @@
 確か同スコープ内なので、最初のurlはstart_urlという変数にいれて、for内でフォーマットして使うものはurlとしました。
-## まとめ
+## 最後にもう一度まとめ
 * `find`にタプルを渡してるのでエラーになってた
 * `url`の変数を上書きしない

ちょい修正

2017/05/08 05:36

投稿

kurosuke___

スコア217

answer CHANGED Viewed

@@ -68,8 +68,36 @@
 f.close()
 ```
 ## 追記：
-すみません。初歩的なミスでした。
+質問者様のコードでは
 ```python
+ horse_name_tag=soup.find('div',{'class':'horse_title'}).find(('div',{'class':'horse_title'}).find('h1'))
+```
+の部分で、find関数にタプルを渡してしまっています。（丸括弧が多い）
+この部分ですね。
+```python
+find( ('div',{'class':'horse_title'}).find('h1') )
+```
+このまま実行すると
+```
+AttributeError: 'tuple' object has no attribute 'find'
+```
+というエラーになります。
+おそらくただのタイプミスだとは思いますが一応。
+あと
+```python
+horse_name_tag=soup.find('div',{'class':'horse_title'}).find(('div',{'class':'horse_title'})).find('h1')
+```
+ここで`class=horse_title`の`div`の下でまた`class=horse_title`の`div`を探しちゃってるのでNoneになります。
+サイト内で確認したら`class=horse_title`の`div`の直下に`h1`があるので
+```python
+horse_name_tag=soup.find('div',{'class':'horse_title'}).find('h1')
+```
+これで取得できます。
+あとはページが変だったときにNoneが返るのをifで分岐してエラー回避して・・・
+```python
 # -*- coding:utf-8 -*-
 import urllib2
@@ -99,6 +127,19 @@
 これで動きます。
-最初に定義したurlという変数をfor内で上書きしちゃってたらそりゃうごきませんですね。
+最初コード書いたときに、最初に定義したurlという変数をfor内で上書きしちゃってました。
-同スコープ内なので、最初のurlはstart_urlという変数にいれて、for内でフォーマットして使うものはurlとしました。
+確か同スコープ内なので、最初のurlはstart_urlという変数にいれて、for内でフォーマットして使うものはurlとしました。
+## まとめ
+* `find`にタプルを渡してるのでエラーになってた
+* `url`の変数を上書きしない
+* DOM要素の指定ミス(最初の`div`タグの指定を２回行っていたため、`h1`が見つからず`None`が返ってた)
+* ページが変だったとき（馬の情報が空だったとき）はDOM要素が見つからず`None`が返るので、そのときはスキップ
+長文で申し訳ないです・・・

修正

2017/05/08 05:34

投稿

kurosuke___

スコア217

answer CHANGED Viewed

@@ -34,7 +34,7 @@
 求めているものと違ったら申し訳ありません。
-追記：
+## 追記：
 2.7で質問にあるコードでいろいろやってみたのですが、なんかxrangeで返るイテレータをforで回してurlに入れ込んでもurlが変わらないみたいです。
 ずっと`http://db.netkeiba.com/horse/2013100691/`のままなので同じものしか取得できませんでした。
 2.7の仕様はよく分かってませんので、きっとなにかがPython3と違うのでしょう。
@@ -59,8 +59,35 @@
     if horse_name_tag != None:
         horse_name_tag.find('h1')
         horse_name = "".join([x for x in horse_name_tag.text if not x == u'\xa0' and not x == u'\n'])
-        print horse_name
+        print horse_name.strip()
+        cols = [horse_name]
+        f.write(",".join(cols) + "\n")
+    else:
+        continue
+f.close()
+```
+## 追記：
+すみません。初歩的なミスでした。
+```python
+# -*- coding:utf-8 -*-
+import urllib2
+import codecs
+import time
+from bs4 import BeautifulSoup
+f = codecs.open('hiyoko.csv', 'w', 'utf-8')
+horse_name = ""
+start_url = 'http://db.netkeiba.com/horse/201310069{0}/'
+for i in xrange(1, 10):
+    url = start_url.format(i)
+    soup = BeautifulSoup(urllib2.urlopen(url).read(),"lxml")
+    time.sleep(1)
+    horse_name_tag = soup.find('div',{'class':'horse_title'})
+    if horse_name_tag != None:
+        horse_name_tag.find('h1')
+        horse_name = "".join([x for x in horse_name_tag.text if not x == u'\xa0' and not x == u'\n'])
         print horse_name.strip()
         cols = [horse_name]
         f.write(",".join(cols) + "\n")
@@ -70,4 +97,8 @@
 f.close()
 ```
+これで動きます。
-Python3.x系なら最初のコードで動くと思います。
+最初に定義したurlという変数をfor内で上書きしちゃってたらそりゃうごきませんですね。
+同スコープ内なので、最初のurlはstart_urlという変数にいれて、for内でフォーマットして使うものはurlとしました。

2\.7でやってみた

2017/05/08 05:12

投稿

kurosuke___

スコア217

answer CHANGED Viewed

@@ -32,4 +32,42 @@
 ```
-求めているものと違ったら申し訳ありません。
+求めているものと違ったら申し訳ありません。
+追記：
+2.7で質問にあるコードでいろいろやってみたのですが、なんかxrangeで返るイテレータをforで回してurlに入れ込んでもurlが変わらないみたいです。
+ずっと`http://db.netkeiba.com/horse/2013100691/`のままなので同じものしか取得できませんでした。
+2.7の仕様はよく分かってませんので、きっとなにかがPython3と違うのでしょう。
+`print i` をするとちゃんと順番にたされた数字が返ってきてるのですが・・・
+なのでいろいろやってこうなりました。
+```python
+# -*- coding:utf-8 -*-
+import urllib2
+import codecs
+import time
+from bs4 import BeautifulSoup
+f = codecs.open('hiyoko.csv', 'w', 'utf-8')
+horse_name = ""
+for i in xrange(1, 10):
+    url = 'http://db.netkeiba.com/horse/201310069%d/' % i
+    soup = BeautifulSoup(urllib2.urlopen(url).read(),"lxml")
+    time.sleep(5)
+    horse_name_tag = soup.find('div',{'class':'horse_title'})
+    if horse_name_tag != None:
+        horse_name_tag.find('h1')
+        horse_name = "".join([x for x in horse_name_tag.text if not x == u'\xa0' and not x == u'\n'])
+        print horse_name
+        print horse_name.strip()
+        cols = [horse_name]
+        f.write(",".join(cols) + "\n")
+    else:
+        continue
+f.close()
+```
+Python3.x系なら最初のコードで動くと思います。

冗長なのでちょっと直しました

2017/05/08 05:04

投稿

kurosuke___

スコア217

answer CHANGED Viewed

@@ -14,17 +14,18 @@
 for i in range(1, 99999):
     soup = BeautifulSoup(urlopen(url.format(i)), "lxml")
+    time.sleep(5)
     div = soup.find('div', class_='horse_title')
     # divがNoneTypeObjectだったらcontinue
     if div != None:
         horse_name = div.h1.text
-        print(horse_name)
+        if horse_name != None:
-        horse_name_list.append(horse_name)
+            horse_name_list.append(horse_name)
-        time.sleep(5)
+        else:
+            continue
     else:
         print("取得できないから飛ばすよ")
-        time.sleep(5)
         continue
 print(horse_name_list)