質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Q&A

解決済

2回答

1114閲覧

テーブル内のテキストやリンクをスクレイピングしたい

Keiichi623

総合スコア17

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

0グッド

0クリップ

投稿2020/05/11 12:30

netokeibaのレースページの開催情報をデータ化しようと考えています。
beautifulsoupを用いて、table内のspanで囲まれた文字やリンクを取得しようと思ったのですが、noneが帰ってきてしまいます。
同じようなタグやクラスの指定はいくつかのサイトで成功しており、どこに問題があるのかわからず悩んでいます。これをうまく抽出するにはどうすれば良いのでしょうか。

import requests import csv import os import pprint from urllib.request import urlopen from bs4 import BeautifulSoup def main() -> None: #トップページを取得 url = "https://race.netkeiba.com/top" html = urlopen(url) soup = BeautifulSoup(html,"lxml") print(soup.get("a")) table = soup.findAll("li",class_ ="RaceList_DataItem ") pprint.pprint(table) if __name__ == '__main__': main()

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

ページのソースを表示して、欲しい情報のテキストが検索できないような場合はBeautifulSoupでは無理です。
Seleniumなどを使う必要があると思います。

Python

1import pprint 2from selenium.webdriver import Chrome, ChromeOptions 3 4def main() -> None: 5 options = ChromeOptions() 6 # options.headless = True 7 8 driver = Chrome(options=options) 9 10 # 待機時間を設定する 11 driver.implicitly_wait(5) 12 13 #トップページを取得 14 driver.get('https://race.netkeiba.com/top') 15 16 for item in driver.find_elements_by_css_selector('.RaceList_Data li.RaceList_DataItem'): 17 pprint.pprint(item.text) 18 19if __name__ == '__main__': 20 main() 21

上記のようなコードで以下の出力を得ます。

Text

1'9R\nテレ玉杯\n芝2000m 13頭' 2'10R\n青竜S\n15:00 ダ1600m 17頭' 3'11R\nヴィクトリア\n15:40 芝1600m 19頭' 4'12R\nBSイレブン\nダ1400m 20頭' 5'9R\n白川特別\n芝2400m 10頭' 6'10R\n渡月橋S\n14:50 芝1400m 16頭' 7'11R\n栗東S\n15:30 ダ1400m 24頭' 8'10R\n胎内川特別\n芝2000m 16頭' 9'11R\n八海山S\n15:20 ダ1200m 41頭' 10'12R\n中ノ岳特別\nダ1800m 37頭' 11続行するには何かキーを押してください . . .

なお、Seleniumのセットアップについては、ご自分で調べてみてください。

投稿2020/05/12 00:21

編集2020/05/12 23:43
autumn_nsn

総合スコア335

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Keiichi623

2020/05/13 12:40

回答ありがとうございます。 Seleniumをセットアップしてテストしてみます。手が遅くてすみません。
guest

0

  1. 文字コードが違う
  2. htmlを渡していない

なのでその2点を直してみる

html = urlopen(url)

html = urlopen(url).read().decode('EUC-JP')

投稿2020/05/12 00:38

hentaiman

総合スコア6426

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Keiichi623

2020/05/13 12:38

回答ありがとうございます。 soupを生で出力するときちんとソースが出てくるので、デコードは問題なさそうでした。 しかしながら、問題を丁寧に切り分けるため明示的に表記してみましたが改善されませんでした。 もう少し悩んでみます。ありがとうございます。
hentaiman

2020/05/13 13:26

指摘したのはデコードの一点のみではありません
Keiichi623

2020/05/14 10:42

htmlを渡すというのは soup = BeautifulSoup(html,"lxml") ではないということでしょうか?
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問