netkeiba.comのレース情報が新しくなったため、スクレイピングが出来なくなり苦慮しております。

Question

python3.5、windows10を使用しております。

netkeiba.comよりレース情報をスクレイピングしております、
先週まで、動いていたプログラムが機能しなくなり苦慮しております。

```ここに言語を入力
# -*- coding:utf-8 -*-

import urllib.request
import codecs
import time
from bs4 import BeautifulSoup

#京都競馬場レース情報                        

f1 = codecs.open('kyoto1.csv', 'w', 'utf-8')
f1.write('type,race_number,other_race_name,other_race_name_2,tousuu,race_name,race_condition,horse_number,horse_name,sex_age,jockey_name,kinryo,odds,pop'+u"
")

url_1='http://oldrace.netkeiba.com/?pid=race_old&id=c202008010601'


#race1
tr_arr_1 = soup_1.select("table.race_table_old nk_tb_common > tr ")
for tr_1 in tr_arr_1:
    #time.sleep(0.25)    
    tds_1 = tr_1.findAll("td")
    if len( tds_1 ) > 1:
        horse_number_1=tds_1[1].text        #馬番
        horse_name_1=tds_1[3].a.text        #馬名
        sex_age_1=tds_1[4].text        #性齢
        jockey_name_1=tds_1[6].a.text        #騎手　　
        kinryo_1=tds_1[5].text      #斤量
        odds_1=tds_1[8].text        #オッズ
        pop_1=tds_1[9].text        #人気
        
        type_1 = "1"
        race_number_tag_1 = soup_1.find('div',{'class':'mainrace_data fc'}).find('dt')
        race_number_1 = "".join([x for x in race_number_tag_1.text if not x == u'\xa0' and not x == u'
'])
        race_name_tag_1 = soup_1.find('div',{'class':'mainrace_data fc'}).find('h1')
        race_name_1 = "".join([x for x in race_name_tag_1.text if not x == u'\xa0' and not x == u'
'])
        race_condition_tag_1 = soup_1.find('div',{'class':'mainrace_data fc'}).find('p')
        race_condition_1 = "".join([x for x in race_condition_tag_1.text if not x == u'\xa0' and not x == u'
'])

        other_race_name_tag_1 = soup_1.find('div',{'class':'race_otherdata fc'}).find('p')
        other_race_name_1 = "".join([x for x in other_race_name_tag_1.text if not x == u'\xa0' and not x == u'
'])
        
        d_1 = soup_1.find('div',{'class':'race_otherdata'})
        for p_1 in d_1.find_all('p'):
            t_1 = p_1.text.replace(u'\xa0', ',') # 「 」(NO-BREAK SPACE)=\xa0を分かりやすい区切り文字に置換
                    
            cols = [type_1.strip(),race_number_1.strip(),other_race_name_1.strip(),t_1.strip(),race_name_1.strip(),race_condition_1.strip(),horse_number_1.strip(),horse_name_1.strip(),sex_age_1.strip(),jockey_name_1.strip(),kinryo_1.strip(),odds_1.strip(),pop_1.strip()]
            f1.write(",".join(cols) + "
")


        print (race_number_1.strip())
       
f1.close()
```
上記のソースコードは先週まで動いていたソースコードです。

これは京都1Rですが、実際には12Rまでソースコードを数字を変えて繰り返しております。
便宜上、1レースのみコードをのせています。

なにかエラーメッセージでもでると調べて直そうと思うのですが、エラーメッセージも出ません。
ただ、空のcsvデータをはきだすだけです。

併せて、今回netkeiba.comは新旧のレース情報を同時に掲載しております

```ここに言語を入力
https://oldrace.netkeiba.com/?pid=race_old&id=c202008010601

```
これは私が使っていますもので

```ここに言語を入力
https://race.netkeiba.com/race/shutuba.html?race_id=202008010601&rf=race_list

```
これが、新しいウェブリストです。

先週まで動いていたソースコードが旧型のアドレスで動かないことが
とても疑問に思います。

ソースコードも自分なりに調べてみましたが、エラーメッセージがでないので、自分としては
ここまでと思い、投稿させていただきました。

御教示をよろしくお願いいたします。

Accepted Answer

プログラムが今まで正しく動作していたとすれば、プログラムで指定している項目がHTMLで見つからないようなので、サイトの HTML 構造が変わっていますね。

サイトの HTML 構造が変わったので、取得できなかったのでしょう。

取得したいのであれば、サイトに合わせてプログラムを変更するしか無いと思います。

スクレイピングは、サイトがリニューアル等で変更されるとそれに合わせてプログラムも修正する必要があることが多いですので、動かなくなった場合は、その都度プログラムを修正して対処することになります。

Answer

オッズと人気はjQueryで生成している以外は特に難しくはないはずです。
```
!apt install chromium-chromedriver
!cp /usr/lib/chromium-browser/chromedriver /usr/bin
!pip install selenium
```
```python
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

options = webdriver.ChromeOptions()
options.add_argument("--headless")
options.add_argument("--no-sandbox")
options.add_argument("--disable-dev-shm-usage")

driver = webdriver.Chrome("chromedriver", options=options)
driver.implicitly_wait(10)
driver.get(
    "https://race.netkeiba.com/race/shutuba.html?race_id=202008010601&rf=race_list"
)

html = driver.page_source.encode("utf-8")

import pandas as pd

df = pd.read_html(html, encoding="utf-8", skiprows=1, header=0)[0]

df
```

Answer

宿命ではないでしょうか。
私もターゲットサイトが変わるたびシコシコとその対応をしています。これからもそれは変わらないでしょう。
でもその度に若干スキルはアップしている気がします（自己満足ですが）。
BeautifulSoupを調べ適用し、seleniumを調べ適用し、その他いろいろ調べ適用し・・・その繰り返しです。
親の遺言（冗談です）であえて質問者さんのサイトは見ません（見たこともありません）が、「レース情報が新しくなった」とあるのでHTMLが変わっているのでいるのでしょうね。
質問者さんがこれを作った時の気持ちで、HTMLの内容・構造・階層を調べて着実に対応するしかないのではないでしょうか。
できれば、サイトに「以後サイトの構造を変えることは禁止する」と言えれば一番いいですけどね。

Answer

馬名だけ試しに取ってますが普通に動きますしプログラムミスがあるのでは？

```python
import requests
from bs4 import BeautifulSoup

url = "https://race.netkeiba.com/race/shutuba.html?race_id=202008010601&rf=race_list"

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko"
}

r = requests.get(url, headers=headers)

r.raise_for_status()

soup = BeautifulSoup(r.content, "html5lib")

for i in soup.select("span.HorseName"):
    print(i.text)
```

Answer

出先のため詳しいことは分かりませんが、出力が空ということですので、サイトがコンテンツ描画をjavascriptで行うように変更されたのかもしれません。

ブラウザのjavascriptをオフにしてもちゃんと表示されるかどうか確かめてみてはどうでしょうか。

※あくまでひとつの可能性として捉えてください

その場合はseleniumとwebdriverを使用してjavascriptレンダリング後のDOMを取得してからBS4でスクレイピングするという選択肢があります。
(この場合、BS4はなくてもSeleniumの機能でスクレイピングすることは可能です)