質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

XPath(XML Path)

XML Path Language (XPath; XMLパス言語)は、マークアップ言語 XML に準拠した文書の特定の部分を指定する言語構文の事をいいます。XPathはXMLとは別の構文を使用します。XMLドキュメントの抽象、論理ストラクチャ上で動作します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

2回答

3396閲覧

Pythonでtdの中をスクレイピングしたい

kenchiku

総合スコア4

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

XPath(XML Path)

XML Path Language (XPath; XMLパス言語)は、マークアップ言語 XML に準拠した文書の特定の部分を指定する言語構文の事をいいます。XPathはXMLとは別の構文を使用します。XMLドキュメントの抽象、論理ストラクチャ上で動作します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2018/07/18 19:06

前提・実現したいこと

現在、某サイトをPythonのlxmlを使ってスクレイピングしようとしています。
tdのタグ内の情報を取得したいのですが、cssselectで指定できそうなclassがないのでXpathのfollowing-siblingである単語で出たtdの次のtdを取得しています。

tdのタグの中から「奥行」とだけ書いているtdの次の「600 mm」を取り出したいのですが、「奥行」とだけ書いているtdの前に「奥行」という言葉が含まれたtdが存在しているので次のtdの「カラー」を取り出してしまいます。

良い方法はないでしょうか?

該当のソースコード

HTMLのソース

<tr> <th rowspan="9" mt:id="ATTR_ITEM_COL">商品仕様</th> <td class="heading"> 寸法 </td> <td class="yahooHighlightSearch spec"> 幅1600×奥行600×高さ700mm、引出し内形センタートレー・幅:758mm、奥行:382mm、高さ:42mm、サイドトレー・幅:322mm、奥行:382mm、高さ:42mm </td> <td class="heading"> カラー </td> <td class="yahooHighlightSearch spec"> メープル/ホワイト </td> </tr> <tr> <td class="heading"> 奥行 </td> <td class="yahooHighlightSearch spec"> 600 mm </td> <td class="heading"> 高さ </td> <td class="yahooHighlightSearch spec"> 700 mm </td> </tr>

Pythonのコード

desk = { 'url' : response.url, 'title' : root.cssselect('.productTitle')[0].text_content().strip(), 'price_num' : root.cssselect('p.priceNum > span.num')[0].text_content(), 'price_tax' : root.cssselect('span.tax')[0].text_content(), 'size' : root.xpath('//td[contains(., "寸法")]/following-sibling::td[1]')[0].text_content().strip(), 'depth' : root.xpath('//td[contains(., "奥行"]/following-sibling::td[1]')[0].text_content().strip(), 'height' : root.xpath('//td[contains(., "高さ")]/following-sibling::td[1]')[0].text_content().strip(), }

結果

{'url': '某サイト', 'title': 'プラス フラットライン 平机 引出し付き メープル/ホワイト 幅1600×奥行600×高さ700mm 1台', 'price_num': '¥18,400', 'price_tax': '¥19,872', 'depth': 'カラー', 'height': 'カラー', }

この結果のdepthとheightを'depth': '600mm', 'height': '700mm', にしたいです。
今はXpathのtd[contains(., "奥行")]のように部分一致で指定しているので、tdの中身と完全一致で指定する方法などがあれば知りたいです。他の良い方法があれば別の方法でも構いません。

よろしくお願い致します。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

containsを使わず、=で比較してはどうでしょうか?

'//td[normalize-space(text())="奥行"]/following-sibling::td[1]'

テストはしてません。

投稿2018/07/19 02:04

otn

総合スコア84423

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

spec_head = soup.find_all("td", attrs={"class": "heading"}) spec_body = soup.find_all("td", attrs={"class": "yahooHighlightSearch"}) で、同じ要素数取れらようでしたら、 spec_head=="奥行"のインデクスが同じspec_bodyを参照することで、やりたいことが実現できるかと思います

投稿2018/07/18 21:50

mats0228

総合スコア219

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問