PyQueryによるスクレイピング先の指定

こんにちは。
PyQueryを用いたスクレイピングでHTMLから情報を取り出す際の、場所指定について教えていただけませんでしょうか。

以下の証券サイトが対象です。

html
1<div id="stockinfo_i3">
2<table>
3  <thead>
4    <tr>
5      <th scope='col'><abbr title="Price Earnings Ratio">PER</abbr></th>
6      <th scope='col'><abbr title="Price Book-value Ratio">PBR</abbr></th>
7      <th scope='col'>利回り</th>
8      <th scope='col'>信用倍率</th>
9    </tr>
10  </thead>
11  <tbody>
12    <tr>
13      <td>－<span>倍</span></td>
14      <td>0.95<span>倍</span></td>
15      <td>－<span>％</span></td>
16      <td>1.75<span>倍</span></td>
17    </tr>
18    <tr>

上記のhtmlソースの後半にある「1.75」という取り出すには、

python
1q.find('#stockinfo_i3 > table > tr:nth-child(2) > td:nth-child(4)’).text()

で良いと考えたのですが、うまく行きません。

ご教示頂けるとありがたいです。
よろしくお願いいたします。

行動規範の内容に同意します

回答1件

ベストアンサー

findは自分自身の要素（この場合は一番根のdiv要素）を検索対象に含まないので質問のコードではマッチできません。
#stockinfo_i3を除けば目的の要素を抜き出せます。

python
1q.find('table > tbody tr:nth-child(1) > td:nth-child(4)').text()

投稿2020/07/20 03:46

hope_mucci

総合スコア4447

Shu0101

2020/07/20 14:06

ありがとうござます。実はHTMLのソースは一部を抜き出したものなので、#stockinfo_i3を除外すると、他の同じ位置にある値が抜き出されてしまいました。しかし、私が間違っていたのはtbody tr:nth-child(1)とすべきところをtr:nth-child(2)としていた点だったので、#stockinfo_i3を追加することで目的の値を取り出すことができました。感謝申し上げます。

行動規範の内容に同意します