質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
XPath(XML Path)

XML Path Language (XPath; XMLパス言語)は、マークアップ言語 XML に準拠した文書の特定の部分を指定する言語構文の事をいいます。XPathはXMLとは別の構文を使用します。XMLドキュメントの抽象、論理ストラクチャ上で動作します。

PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

Q&A

解決済

2回答

1946閲覧

PHP XPathで現在場所指定で取得しているものを文字列から判定させたい

Yashichi847

総合スコア15

XPath(XML Path)

XML Path Language (XPath; XMLパス言語)は、マークアップ言語 XML に準拠した文書の特定の部分を指定する言語構文の事をいいます。XPathはXMLとは別の構文を使用します。XMLドキュメントの抽象、論理ストラクチャ上で動作します。

PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

0グッド

0クリップ

投稿2018/06/13 14:35

現在クローリングについて勉強中です。

https://next.rikunabi.com/ → 「求人一覧を見る」のリンク先、各企業のリンク先の情報から
数千件の代表者、従業員数、業種を取得しようと思っています

HTML

1 <tbody><tr class="rnn-tableGrid"> 2 <th class="rnn-col-2">設立</th> 3 <td class="rnn-col-10"> 4 <p>19xx年xx月</p> 5 </td> 6 </tr> 7 8 <tr class="rnn-tableGrid"> 9 <th class="rnn-col-2">代表者</th> 10 <td class="rnn-col-10"> 11 <p>代表取締役社長 ○山 X夫</p> 12 </td> 13 </tr> 14 15 <tr class="rnn-tableGrid"> 16 <th class="rnn-col-2">資本金</th> 17 <td class="rnn-col-10"> 18 <p>100億円</p> 19 </td> 20 </tr> 21 22 <tr class="rnn-tableGrid"> 23 <th class="rnn-col-2">売上高</th> 24 <td class="rnn-col-10"> 25 <p>1兆円</p> 26 </td> 27 </tr> 28 29 <tr class="rnn-tableGrid"> 30 <th class="rnn-col-2">従業員数</th> 31 <td class="rnn-col-10"> 32 <p>65,535名</p> 33 </td> 34 </tr> 35 36 <tr class="rnn-tableGrid"> 37 <th class="rnn-col-2">事業所</th> 38 <td class="rnn-col-10"> 39 <p>東京都大阪区名古屋</p> 40 </td> 41 </tr> 42 43 <tr class="rnn-tableGrid"> 44 <th class="rnn-col-2">業種</th> 45 <td class="rnn-col-10"> 46 <p>ニート</p> 47 </td> 48 </tr> 49 50 <tr class="rnn-tableGrid"> 51 <th class="rnn-col-2">事業内容</th> 52 <td class="rnn-col-10"> 53 <p>食う・寝る</p> 54 </td> 55 </tr> 56 </tbody> 57

現在テーブルタグの中の2個目(代表者)、5個目(従業員数)、7個目(業種)を取得する考え方で配列にしたのですが
2割ほどの求人がこの場所にありません。
なので<th></th>の中にある 代表者・従業員数・業種 などの文字列を見て

<td><p>~</p></td>の中の文字列を取得したいと思っています。

php

1$xpath_delegate = '/html/body/div[@class="rnn-wrapper"]/div[@class="rnn-offerInfoMain rnn-group rnn-group--xxl"]/div/div[@class="rnn-stage js-offerInfoMain"]/div[@class="rnn-row rnn-row--gutter-xm"]/div[@class="rnn-col-9 rnn-group rnn-group--Ll"]/div[@class="rnn-group rnn-group--xm js-cmpnyInfo"]/div[@class="rnn-group rnn-group--s"]/div[@class="rnn-group rnn-group--xs rnn-textM"]/table[@class="rnn-detailTable"]/tr[@class="rnn-tableGrid"][2]/td/p/text()'; 2$xpath_employees = '/html/body/div[@class="rnn-wrapper"]/div[@class="rnn-offerInfoMain rnn-group rnn-group--xxl"]/div/div[@class="rnn-stage js-offerInfoMain"]/div[@class="rnn-row rnn-row--gutter-xm"]/div[@class="rnn-col-9 rnn-group rnn-group--Ll"]/div[@class="rnn-group rnn-group--xm js-cmpnyInfo"]/div[@class="rnn-group rnn-group--s"]/div[@class="rnn-group rnn-group--xs rnn-textM"]/table[@class="rnn-detailTable"]/tr[@class="rnn-tableGrid"][5]/td/p/text()'; 3$xpath_industry = '/html/body/div[@class="rnn-wrapper"]/div[@class="rnn-offerInfoMain rnn-group rnn-group--xxl"]/div/div[@class="rnn-stage js-offerInfoMain"]/div[@class="rnn-row rnn-row--gutter-xm"]/div[@class="rnn-col-9 rnn-group rnn-group--Ll"]/div[@class="rnn-group rnn-group--xm js-cmpnyInfo"]/div[@class="rnn-group rnn-group--s"]/div[@class="rnn-group rnn-group--xs rnn-textM"]/table[@class="rnn-detailTable"]/tr[@class="rnn-tableGrid"][7]/td/p/text()';

現在のXPathの書き方は配列場所直書きですが
このなかに「thの文字列を見て一致したらtdの文字列を取得する」という書き方はできるでしょうか?
できないとすればどのような対処法がありますでしょうか?

よろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

'//th[text()="代表者"]/../td/p'

投稿2018/06/13 15:08

otn

総合スコア84538

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

mpyw

2018/06/13 15:18

今回のHTMLだと <th> <td> がペアで複数あるパターンなのでこちらが正解でしたね、失礼しました。
Yashichi847

2018/06/14 13:54

UNIXのcd(チェンジディレクトリ)と同じような考え方ですね text()だとNULLが帰ってきたのでもしや?と思い[.="代表者"]と書いたら思うように値取れました ありがとうございます
otn

2018/06/15 00:12

.= という演算子は知りませんでした。containsの意味でしょうか? 前後に空白があってイコールで判断出来ないときは、[normalize-space()="代表者"]
mpyw

2018/06/15 09:14 編集

`text()` はその階層直下から完全一致するテキストノードを1つ探す一方,`.` はその階層以下のノードをすべてテキスト化して結合した1つの値との比較となります。
otn

2018/06/15 12:16

ああ、そういう意味でしたか。ありがとうございます。
guest

0

投稿2018/06/13 15:05

mpyw

総合スコア5223

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問