前提・実現したいこと

以下のようなソースコードにおいて、pythonを介してスクレイピングでb2の値を取得したいのですが、取得方法についてご教示お願い致します。

該当のソースコード

[ppp.comのソースコード]

<table id="A"> <tr> <td> <ul id class ="B"> <li>a1</li> <li>a2</li> <li>a3</li> </ul> <ul id class ="B"> <li>b1</li> <li data-an-olink="C">**b2**</li> /*取得したい値の行*/ <li>b3</li> </ul> <ul id class ="B"> <li>c1</li> <li>c2</li> <li>c3</li> </ul> </td> </tr> </table> ### 試したこと import requests from bs4 import BeautifulSoup

url = 'ppp.com'

response = requests.get(url)
response.encoding = response.apparent_encoding

bs = BeautifulSoup(response.text, 'html.parser')
ul = bs.find('table',{'id':'A'}).findAll('ul',{'class':'B'})

line = ul.find('li',{"data-an-olink":"C"}).string
print(line)

補足情報（FW/ツールのバージョンなど）

これらの方法がダメだった場合、該当するul内の一つ目のliの値を条件に抽出する方法(if li[0] = b1 )はどうかなと思います。

行動規範の内容に同意します

回答3件

CSSセレクタでも直接取得することができます。

Python
1html = """
2<table id="A">
3<tr>
4<td>
5
6<ul id class ="B">
7<li>a1</li>
8<li>a2</li>
9<li>a3</li>
10</ul>
11
12<ul id class ="B">
13<li>b1</li>
14<li data-an-olink="C">b2</li>
15<li>b3</li>
16</ul>
17
18<ul id class ="B">
19<li>c1</li>
20<li>c2</li>
21<li>c3</li>
22</ul>
23
24</td>
25</tr>
26
27</table>
28"""
29
30from bs4 import BeautifulSoup
31
32bs = BeautifulSoup(html, 'html.parser')
33line = bs.select_one('table[id="A"] > tr > td > ul[class="B"] > li[data-an-olink="C"]')
34print(line.string)

投稿2018/12/17 07:21

8524ba23

総合スコア38350

barobaro

2018/12/17 08:09

idとclass以外のcssの書き方知らなかったので勉強になりました。

行動規範の内容に同意します

金額の部分はjavascriptで後からレンダリングされているため
レンダリング後スクレイピングします。

新品在庫ありの部分だけ取得するサンプルです。必要な箇所のCSSに変更してください。

sh
1# requests-htmlをインストール
2pip install requests-html

python
1from requests_html import HTMLSession
2
3# URLを入力
4url = 'https://mnsearch.com/item?kwd=B07G3JM2P5'
5
6# CSS
7css = 'table#_shopList_new td span.price'
8
9session = HTMLSession()
10
11r = session.get(url)
12
13# Javascriptレンダリングされるまで5秒待機
14r.html.render(sleep=5)
15
16result = [i.text for i in r.html.find(css)]
17
18print(result)

投稿2018/12/17 12:38

barobaro

総合スコア1286

ベストアンサー

<ul id class ="B">が３つあるためリストになっています。ひとつずつ取り出して処理してあげるといいです。 a1とc1のところには'data-an-olink'がないためifで除外してからstringしています。

python
1from bs4 import BeautifulSoup
2
3html = '''
4<table id="A">
5<tr>
6<td>
7
8<ul id class ="B">
9<li>a1</li>
10<li>a2</li>
11<li>a3</li>
12</ul>
13
14<ul id class ="B">
15<li>b1</li>
16<li data-an-olink="C">b2</li> /*取得したい値の行*/
17<li>b3</li>
18</ul>
19
20<ul id class ="B">
21<li>c1</li>
22<li>c2</li>
23<li>c3</li>
24</ul>
25
26</td>
27</tr>
28
29</table>
30'''
31
32soup = BeautifulSoup(html, 'html.parser')
33
34for ul in soup.find_all('ul', class_='B'):
35    line = ul.find('li',{"data-an-olink":"C"})
36    if line:
37        print(line.string)

追記

直接でかまわないのであればこれで取得できます

python
1soup = BeautifulSoup(html, 'html.parser')
2
3line = soup.find('li',{"data-an-olink":"C"})
4print(line.string)

投稿2018/12/15 04:46

編集2018/12/15 04:49

barobaro

総合スコア1286

youri0326

2018/12/17 05:48

わかりやすく回答していただきありがとうございます。別のページでは機能したのですが、取得したい特定のページで機能しなかったので、そのページではスクレイピングが防止されているのかなと思いました。。。

barobaro

2018/12/17 08:02

pip install html5lib で追加して soup = BeautifulSoup(html, 'html5lib') で試してみるとどうでしょうか？もし差し支えなければURLを教えて欲しいです。難しいようでしたら該当箇所のHTMLのソースがあれば見てみたいのでお願いします。 soup.prettify() で整形されたソースが表示されます

youri0326

2018/12/17 10:03

ご丁寧にありがとうございます。 ■URL https://mnsearch.com/item?kwd=B07G3JM2P5 ↑こちらの ■該当箇所 'table[id="_shopList_new""] > ul[class="_shop_info_list"] > a[data-an-olink="item_price_amazon"] >span[class="price"] のspanに含まれるテキストを取得したいと思っています。item_priceだけに限定すると値が取得できるので、もしかしたらそれ以上、特定できないのかと思いました。お手数をおかけしますが宜しくお願い致します。

barobaro

2018/12/17 12:39

別回答にてプログラム記載しました。

youri0326

2018/12/18 08:29

ありがとうございます。ご指摘の通り記載したら稼働しました。

行動規範の内容に同意します

あなたの回答