テーブル内のテキストやリンクをスクレイピングしたい

netokeibaのレースページの開催情報をデータ化しようと考えています。
beautifulsoupを用いて、table内のspanで囲まれた文字やリンクを取得しようと思ったのですが、noneが帰ってきてしまいます。
同じようなタグやクラスの指定はいくつかのサイトで成功しており、どこに問題があるのかわからず悩んでいます。これをうまく抽出するにはどうすれば良いのでしょうか。

import requests
import csv
import os
import pprint

from urllib.request import urlopen
from bs4 import BeautifulSoup

def main() -> None:


    #トップページを取得
    url = "https://race.netkeiba.com/top"
    html = urlopen(url)
    soup = BeautifulSoup(html,"lxml")

    print(soup.get("a"))
    table = soup.findAll("li",class_ ="RaceList_DataItem ")

    pprint.pprint(table)

if __name__ == '__main__':
    main()

行動規範の内容に同意します

回答2件

ベストアンサー

ページのソースを表示して、欲しい情報のテキストが検索できないような場合はBeautifulSoupでは無理です。
Seleniumなどを使う必要があると思います。

Python
1import pprint
2from selenium.webdriver import Chrome, ChromeOptions
3
4def main() -> None:
5    options = ChromeOptions()
6    # options.headless = True
7
8    driver = Chrome(options=options)
9
10    # 待機時間を設定する
11    driver.implicitly_wait(5)
12
13    #トップページを取得
14    driver.get('https://race.netkeiba.com/top')
15
16    for item in driver.find_elements_by_css_selector('.RaceList_Data li.RaceList_DataItem'):
17        pprint.pprint(item.text)
18
19if __name__ == '__main__':
20    main()
21

上記のようなコードで以下の出力を得ます。

Text
1'9R\nテレ玉杯\n芝2000m 13頭'
2'10R\n青竜S\n15:00 ダ1600m 17頭'
3'11R\nヴィクトリア\n15:40 芝1600m 19頭'
4'12R\nBSイレブン\nダ1400m 20頭'
5'9R\n白川特別\n芝2400m 10頭'
6'10R\n渡月橋S\n14:50 芝1400m 16頭'
7'11R\n栗東S\n15:30 ダ1400m 24頭'
8'10R\n胎内川特別\n芝2000m 16頭'
9'11R\n八海山S\n15:20 ダ1200m 41頭'
10'12R\n中ノ岳特別\nダ1800m 37頭'
11続行するには何かキーを押してください . . .

なお、Seleniumのセットアップについては、ご自分で調べてみてください。

投稿2020/05/12 00:21

編集2020/05/12 23:43

autumn_nsn

総合スコア335

Keiichi623

2020/05/13 12:40

回答ありがとうございます。 Seleniumをセットアップしてテストしてみます。手が遅くてすみません。

行動規範の内容に同意します

文字コードが違う
htmlを渡していない

なのでその2点を直してみる

html = urlopen(url)

↓

html = urlopen(url).read().decode('EUC-JP')

投稿2020/05/12 00:38

hentaiman

総合スコア6415

Keiichi623

2020/05/13 12:38

回答ありがとうございます。 soupを生で出力するときちんとソースが出てくるので、デコードは問題なさそうでした。しかしながら、問題を丁寧に切り分けるため明示的に表記してみましたが改善されませんでした。もう少し悩んでみます。ありがとうございます。

hentaiman

2020/05/13 13:26

指摘したのはデコードの一点のみではありません

Keiichi623

2020/05/14 10:42

htmlを渡すというのは soup = BeautifulSoup(html,"lxml") ではないということでしょうか？

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.49%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

テーブル内のテキストやリンクをスクレイピングしたい

関連した質問