質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.46%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Webサイト

一つのドメイン上に存在するWebページの集合体をWebサイトと呼びます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

Q&A

解決済

1回答

1644閲覧

find_allを使って<td nowrap>タグがついた部分を取得したい

MiringthongUtd

総合スコア3

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Webサイト

一つのドメイン上に存在するWebページの集合体をWebサイトと呼びます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

0グッド

0クリップ

投稿2021/02/06 03:31

find_allを使って<td nowrap>タグがついた部分を取得したい

競馬の結果をWebページから取得するプログラムを作成しています。
BeautifulSoupを使ってデータを取得した後にfind_allで<td nowrap>のタグがついた部分を抜き出したいのですが、うまく取得ができなくて困っています。

たとえば、以下のソースの2行目〜4行目の「1」「8」「12」を取得したいです。

<tr bgcolor="#FFFFFF" align="center"> <td nowrap><span class="bold">1</span></td> <td nowrap>8</td> <td nowrap>12</td> <td nowrap class="dbdata3"><span class="bold"> <a href=' /KeibaWeb/DataRoom/HorseMarkInfo?k_lineageLoginCode=30017403226 ' target="_blank"> カミノユリコ ・ ・ ・

発生している問題・エラーメッセージ

find_all("td nowrap")として実行しても取得できず。 一方で、find_all("td")とした場合には、他の<td>タグの部分のみ取得し、欲しい部分が取得できませんでした。 nowrap の取扱についてご教示いただきたいです。

該当のソースコード

Python

1import requests 2from bs4 import BeautifulSoup 3 4def Get_Race_Mark(): 5 6 url = "https://www.keiba.go.jp/KeibaWeb/TodayRaceInfo/RaceMarkTable?k_raceDate=2021%2f02%2f05&k_raceNo=12&k_babaCode=18" 7 8 html = requests.get(url) 9 soup = BeautifulSoup(html.text,"html.parser") 10 11 soup2 = soup.find_all("td nowrap") 12 13 print(soup2) 14 15 16Get_Race_Mark()

試したこと

soup2 = soup.find_all("td nowrap")の部分を「soup2 = soup.find_all("td")」に変更
<td nowrap>部分の取得ができず。

補足情報(FW/ツールのバージョンなど)

ここにより詳細な情報を記載してください。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

一方で、find_all("td")とした場合には、他の<td>タグの部分のみ取得し、欲しい部分が取得できませんでした。

が、勘違いだとすると

Python

1td_nowrap = [x for x in soup.find_all("td") if x.has_attr("nowrap")]

でしょうか。

投稿2021/02/06 03:49

otn

総合スコア84798

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

MiringthongUtd

2021/02/06 04:14

ご回答ありがとうございます。 回答いただいたコードで欲しい情報が取得できました。 勘違いの部分については、「find_all("td")」で取得した場合に、<td nowrap> が <td nowrap="">として表示されているようで、該当部分が取得できていないと勘違いしていたようです。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.46%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問