質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

XPath(XML Path)

XML Path Language (XPath; XMLパス言語)は、マークアップ言語 XML に準拠した文書の特定の部分を指定する言語構文の事をいいます。XPathはXMLとは別の構文を使用します。XMLドキュメントの抽象、論理ストラクチャ上で動作します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Scrapy

Scrapyは、Pythonで開発されたオープンソースソフトウェアです。スクレイピングという、Webサービスから必要な情報を取り出したり自動操作をしたりする技術を使うものです。

Q&A

1回答

1622閲覧

scrapyでスクレイピングを行う時の xpathについて

pumskin

総合スコア1

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

XPath(XML Path)

XML Path Language (XPath; XMLパス言語)は、マークアップ言語 XML に準拠した文書の特定の部分を指定する言語構文の事をいいます。XPathはXMLとは別の構文を使用します。XMLドキュメントの抽象、論理ストラクチャ上で動作します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Scrapy

Scrapyは、Pythonで開発されたオープンソースソフトウェアです。スクレイピングという、Webサービスから必要な情報を取り出したり自動操作をしたりする技術を使うものです。

0グッド

0クリップ

投稿2020/06/08 15:59

編集2020/06/09 15:45

pythonを2ヶ月前から勉強し始めた初学者です。
今、スクレイピングの参考書を見ながらサイトのスクレイピングを使用と試みています。

発生している問題・エラーメッセージ

https://ramendb.supleks.jp/s/4227.html

このサイトの店舗名、住所、開店日を抽出したいのですがうまくいきません。

ご教示願います。

試したこと

参考書では店舗名のテキスト取得のコードが使用されていました。
これは店舗名しかうまくいかなかったのでネットで検索したところ、google chromeで生成できるxpathで抽出しようと思い試みましたがエラーも出ず、何も抽出されませんでした。

python

1 2import scrapy 3#https://ramendb.supleks.jp/s/4227.html 4scrapy shell https://ramendb.supleks.jp/s/4227.html 5#店舗名のテキストを取得 6response.css('.shopname').xpath('string()').get() 7#開店日のテキストを取得① 8response.xpath('//*[@id="data-table"]/tbody/tr[12]/text()').extract() 9#開店日のテキストを取得② 10response.xpath('/html/body/div[5]/div/div[1]/div/div[5]/div[1]/div/table/tbody/tr[12]/td/text()').extract()

発生している問題・エラーメッセージ

#scrapy shellの部分は省略 >>> response.css('.shopname').xpath('string()').get() 'ちばから' >>> #開店日のテキストを取得① >>> response.xpath('//*[@id="data-table"]/tbody/tr[12]/text()').extract() [] >>> #開店日のテキストを取得② >>> response.xpath('/html/body/div[5]/div/div[1]/div/div[5]/div[1]/div/table/tbody/tr[12]/td/text()').extract() []

###追加と修正
octoparse様の回答を参考に行ったところ。抽出はできました。
ですが、ここからテキストのみを取得したいです。

>>>response.xpath('//th[text()="開店日"]/following-sibling::td[1]').get() '<td>2004年10月8日</td>' >>> response.xpath('//div[@id="shop-data"]//span[@itemprop="address"]').get() '<span itemprop="address">〒290-0072 <a href="/search/shop?state=chiba">千葉県</a><a href="/search/shop?state=chiba&amp;city=%E5%B8%82%E5%8E%9F%E5%B8%82">市原市</a>西国分寺台1-3-16</span>'

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

hope_mucci

2020/06/08 22:47

回答者がテストできるように、そのまま動かすことができるコードを追記しましょう。 下記ヘルプを参考にソースコードを埋め込みましょう。 プレビューもちゃんと確認すること。 https://teratail.com/help/question-tips#questionTips3-5
otn

2020/06/09 04:14

コードと実行結果を書きましょう。
pumskin

2020/06/09 05:18

ご指摘ありがとうございます。 解答者側に配慮のない投稿になってしまい申し訳ございません。 修正は夜になってしまいますが、よろしければご回答願います。
guest

回答1

0

下記のxpathでデータを指定できますか?

店名: //div[@id="shop-data"]//span[@itemprop="name"]
住所: //div[@id="shop-data"]//span[@itemprop="address"]
開店日: //th[text()="開店日"]/following-sibling::td[1]

もしよければ、以下の記事をご参考ください。
XPath基礎編(2) ー XPathの書き方

投稿2020/06/09 07:22

退会済みユーザー

退会済みユーザー

総合スコア0

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

pumskin

2020/06/10 04:14

指定できました! 記事を参考にさせていただいたのですが、この指定した中からテキストのみを抜き出す事はできないのでしょうか。
退会済みユーザー

退会済みユーザー

2020/06/10 04:35

print(element.text) などを使ってみたら?
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問