質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.34%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Webサイト

一つのドメイン上に存在するWebページの集合体をWebサイトと呼びます。

XPath(XML Path)

XML Path Language (XPath; XMLパス言語)は、マークアップ言語 XML に準拠した文書の特定の部分を指定する言語構文の事をいいます。XPathはXMLとは別の構文を使用します。XMLドキュメントの抽象、論理ストラクチャ上で動作します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

298閲覧

競馬ラボというサイトから疑似要素を含む部分のテキストをスクレイピングして取得しようとしているが、取得方法がわからないので教えてください。

kazusa

総合スコア2

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Webサイト

一つのドメイン上に存在するWebページの集合体をWebサイトと呼びます。

XPath(XML Path)

XML Path Language (XPath; XMLパス言語)は、マークアップ言語 XML に準拠した文書の特定の部分を指定する言語構文の事をいいます。XPathはXMLとは別の構文を使用します。XMLドキュメントの抽象、論理ストラクチャ上で動作します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2025/01/12 19:08

実現したいこと

競馬ラボというサイトの https://www.keibalab.jp/db/race/202412150811/course.html
このページの 『▶2歳オープン (国) 牡・牝 (指) 馬齢』という部分の文字を取得したいです。

発生している問題・分からないこと

競馬ラボというサイトの https://www.keibalab.jp/db/race/202412150811/course.html
このページの 『▶2歳オープン (国) 牡・牝 (指) 馬齢』 という部分の文字を取得したいのですが、疑似要素の処理の仕方がわかりません。一応自分でも調べてみたのですが、いろいろなやり方が断片的に見つかってしまい、混乱してしまいました。

BeautifulSoupとrequestsで今までスクレイピングをやってきていて、かつuser-Agentの指定の仕方もrequestsでの方法しかわからないので、できるだけこの2つを使って(必要であればここに何か別のモジュールやライブラリなどを足して)疑似要素を処理して『』を取得する方法を教えてほしいです。まだまだ初心者でわからないことが多いのでできればシンプルな方法な方がうれしいです。注文が多くなってしまい申し訳ないのですが...

下記には一応自分でも試したけどエラーになってしまったコードを1つ載せておきます。
それのダメなところを直してくれるのもありがたいです。
自分が調べて試した中では、下記URLのコードを参考にしてXpathでなんとかするのが楽そうなのかなぁと全然わかってないですが思いました。
https://machine-learning-skill-up.com/knowledge/python%E3%81%A8beautifulsoup%E3%82%92%E4%BD%BF%E3%81%A3%E3%81%9Fxpath%E5%87%A6%E7%90%86%E3%81%AE%E5%AE%9F%E4%BE%8B%E8%A7%A3%E8%AA%AC

該当のソースコード

python

1import requests 2from bs4 import BeautifulSoup 3from lxml import html 4 5load_url = "https://www.keibalab.jp/db/race/202412150811/course.html" 6 7headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.3"} 8Response = requests.get(load_url, headers=headers) 9web_content = Response.content 10 11tree = html.fromstring(web_content) 12 13element = tree.xpath("/html/body/div[2]/div[2]/div/article/div/section/div/div/div[2]/div[1]/div[1]/div[1]/div[2]/ul/li[1]/text()") 14 15print(element) 16 17#AttributeError: 'Response' object has no attribute 'fromstring'

試したこと・調べたこと

  • teratailやGoogle等で検索した
  • ソースコードを自分なりに変更した
  • 知人に聞いた
  • その他
上記の詳細・結果

#AttributeError: 'Response' object has no attribute 'fromstring'

補足

競馬ラボはUser-Agentを指定しないとスクレイピングできなかったです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

melian

2025/01/12 23:51

手元の環境は Python 3.12.3/BeautifulSoup 4.12.3/lxml 5.3.0 なのですが、質問に記載されているコードをコピペして実行してみたところ、以下の文字列が表示されました。(問題なく動作) ['2歳オープン (国) 牡・牝 (指) 馬齢']
bsdfan

2025/01/13 05:24

どこかで html = requests.get(...) みたいなのを実行して、html という変数に Response 型のものをセットしていないでしょうか。 それによって lxml から import した html が使えなくなっているように見えます。
kazusa

2025/01/13 18:27

import requests from bs4 import BeautifulSoup from lxml import html load_url_kari = "https://www.keibalab.jp/db/race/202412150811/course.html" headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.3"} html = requests.get(load_url_kari, headers=headers) soup = BeautifulSoup(html.content, "html.parser") course_names =[] course_name = soup.select('h3[class*="courseHeading"]')[0].text course_names.append(course_name) for x in course_names: print(x) # ここまでは動く。つまりコースを取得できている。 # 問題は疑似要素の取得 load_url = "https://www.keibalab.jp/db/race/202412150811/course.html" headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.3"} Response = requests.get(load_url, headers=headers) web_content = Response.content tree = html.fromstring(web_content) element = tree.xpath("/html/body/div[2]/div[2]/div/article/div/section/div/div/div[2]/div[1]/div[1]/div[1]/div[2]/ul/li[1]/text()") print(element) 勝手に『』取得が上手くいかない理由に関係がないと思ってしまっていたので『』部分の取得の処理の部分だけで掲載してしまいましたが、これが上手くいかなかったコード全文です。ご指摘の通りhtml = requests.get(...) をやってしまっていました。 参考にしたコードではfromstringが黄色なのに、自分の画面では白色だったりとなんか変だなとは思っていましたが、この辺をもっとちゃんと理解していたほうがよかった気がしています。(エディタはVSCで文字色はデフォルトから変更なし) コメントありがとうございました!
kazusa

2025/01/13 18:37

上記のように掲載しなかった部分が悪さをしてると思っていなかったので、コード全文でしかコードを実行したことがありませんでした。そのため『』取得の部分だけで動かした場合にコードが普通に動くということに気が付いていませんでした。 (ただし、取得結果が ['2歳オープン¥u3000(国) 牡・牝 (指) 馬齢'] となり、なぜか微妙に異なるのですが) melianさんもコメントありがとうございます!
bsdfan

2025/01/14 02:54

> (ただし、取得結果が ['2歳オープン¥u3000(国) 牡・牝 (指) 馬齢'] となり、なぜか微妙に異なるのですが) リストをprintしているのでそのように表示されています。print(element[0]) してみてください。なお ¥u3000 は UNICODE の IDEOGRAPHIC SPACE で、一般的に言う全角スペースです。
melian

2025/01/14 03:46

参考までに、lxml でも CSSセレクタを使うことができます。 lxml.cssselect https://lxml.de/cssselect.html tree = html.fromstring(web_content) element = tree.cssselect('ul.classCourseSyokin li:first-child') print(element[0].text_content())
guest

回答1

0

ベストアンサー

エラーについてはコメントで書いたように、どこかで html = requests.get(...) みたいなのを実行して、html という変数に Response 型のものをセットしているためでしょう。それによって lxml から import した html が使えなくなっています。

以下は、こうしたほうがいいんじゃないか、という内容です。

疑似要素というのがどこのことを指しているのかよくわからないのですが、XPathでルートからフルパスで要素を指定するよりも、html を構造的に考えて、要素名やclassやidといったもので絞り込んでやるほうが、わかりやすくなると思います。
今回のケースだと、<ul class=classCourseSyokin> の下の <li> の1番目ということで要素が特定できると思います。

python

1tree = html.fromstring(web_content) 2elements = tree.xpath('//ul[contains(@class,"classCourseSyokin")]/li') 3print(elements[0].text_content()) 4# 2歳オープン (国) 牡・牝 (指) 馬齢

個人的には XPath よりも CSS セレクタのほうがシンプルに書けると思うのですが、BeautifulSoup を使えば下記にようになります。

python

1soup = BeautifulSoup(web_content) 2elements = soup.select('ul.classCourseSyokin li') 3print(elements[0].text)

投稿2025/01/13 06:22

編集2025/01/14 02:48
bsdfan

総合スコア4818

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kazusa

2025/01/14 11:50

わかりやすい回答ありがとうございました! 理解が深まりましたし、無事『』を取得することができました。 また機会がありましたら気が向いたらでいいのでよろしくお願いします!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.34%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問