質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

3回答

1887閲覧

スクレイピング:listタグ内の、class、idで特定できない値の抽出

youri0326

総合スコア22

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

1クリップ

投稿2018/12/15 03:25

前提・実現したいこと

以下のようなソースコードにおいて、pythonを介してスクレイピングでb2の値を取得したいのですが、取得方法についてご教示お願い致します。

該当のソースコード

[ppp.comのソースコード]

<table id="A"> <tr> <td> <ul id class ="B"> <li>a1</li> <li>a2</li> <li>a3</li> </ul> <ul id class ="B"> <li>b1</li> <li data-an-olink="C">**b2**</li> /*取得したい値の行*/ <li>b3</li> </ul> <ul id class ="B"> <li>c1</li> <li>c2</li> <li>c3</li> </ul> </td> </tr> </table> ### 試したこと import requests from bs4 import BeautifulSoup

url = 'ppp.com'

response = requests.get(url)
response.encoding = response.apparent_encoding

bs = BeautifulSoup(response.text, 'html.parser')
ul = bs.find('table',{'id':'A'}).findAll('ul',{'class':'B'})

line = ul.find('li',{"data-an-olink":"C"}).string
print(line)

補足情報(FW/ツールのバージョンなど)

これらの方法がダメだった場合、該当するul内の一つ目のliの値を条件に抽出する方法(if li[0] = b1 )はどうかなと思います。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答3

0

CSSセレクタでも直接取得することができます。

Python

1html = """ 2<table id="A"> 3<tr> 4<td> 5 6<ul id class ="B"> 7<li>a1</li> 8<li>a2</li> 9<li>a3</li> 10</ul> 11 12<ul id class ="B"> 13<li>b1</li> 14<li data-an-olink="C">b2</li> 15<li>b3</li> 16</ul> 17 18<ul id class ="B"> 19<li>c1</li> 20<li>c2</li> 21<li>c3</li> 22</ul> 23 24</td> 25</tr> 26 27</table> 28""" 29 30from bs4 import BeautifulSoup 31 32bs = BeautifulSoup(html, 'html.parser') 33line = bs.select_one('table[id="A"] > tr > td > ul[class="B"] > li[data-an-olink="C"]') 34print(line.string)

投稿2018/12/17 07:21

can110

総合スコア38262

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

barobaro

2018/12/17 08:09

idとclass以外のcssの書き方知らなかったので勉強になりました。
guest

0

金額の部分はjavascriptで後からレンダリングされているため
レンダリング後スクレイピングします。

新品在庫ありの部分だけ取得するサンプルです。必要な箇所のCSSに変更してください。

sh

1# requests-htmlをインストール 2pip install requests-html

python

1from requests_html import HTMLSession 2 3# URLを入力 4url = 'https://mnsearch.com/item?kwd=B07G3JM2P5' 5 6# CSS 7css = 'table#_shopList_new td span.price' 8 9session = HTMLSession() 10 11r = session.get(url) 12 13# Javascriptレンダリングされるまで5秒待機 14r.html.render(sleep=5) 15 16result = [i.text for i in r.html.find(css)] 17 18print(result)

投稿2018/12/17 12:38

barobaro

総合スコア1286

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

ベストアンサー

<ul id class ="B">が3つあるためリストになっています。 ひとつずつ取り出して処理してあげるといいです。 a1とc1のところには'data-an-olink'がないためifで除外してからstringしています。

python

1from bs4 import BeautifulSoup 2 3html = ''' 4<table id="A"> 5<tr> 6<td> 7 8<ul id class ="B"> 9<li>a1</li> 10<li>a2</li> 11<li>a3</li> 12</ul> 13 14<ul id class ="B"> 15<li>b1</li> 16<li data-an-olink="C">b2</li> /*取得したい値の行*/ 17<li>b3</li> 18</ul> 19 20<ul id class ="B"> 21<li>c1</li> 22<li>c2</li> 23<li>c3</li> 24</ul> 25 26</td> 27</tr> 28 29</table> 30''' 31 32soup = BeautifulSoup(html, 'html.parser') 33 34for ul in soup.find_all('ul', class_='B'): 35 line = ul.find('li',{"data-an-olink":"C"}) 36 if line: 37 print(line.string)

追記

直接でかまわないのであればこれで取得できます

python

1soup = BeautifulSoup(html, 'html.parser') 2 3line = soup.find('li',{"data-an-olink":"C"}) 4print(line.string)

投稿2018/12/15 04:46

編集2018/12/15 04:49
barobaro

総合スコア1286

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

youri0326

2018/12/17 05:48

わかりやすく回答していただきありがとうございます。 別のページでは機能したのですが、取得したい特定のページで機能しなかったので、そのページではスクレイピングが防止されているのかなと思いました。。。
barobaro

2018/12/17 08:02

pip install html5lib で追加して soup = BeautifulSoup(html, 'html5lib') で試してみるとどうでしょうか? もし差し支えなければURLを教えて欲しいです。 難しいようでしたら該当箇所のHTMLのソースがあれば見てみたいのでお願いします。 soup.prettify() で整形されたソースが表示されます
youri0326

2018/12/17 10:03

ご丁寧にありがとうございます。 ■URL https://mnsearch.com/item?kwd=B07G3JM2P5 ↑こちらの ■該当箇所 'table[id="_shopList_new""] > ul[class="_shop_info_list"] > a[data-an-olink="item_price_amazon"] >span[class="price"] のspanに含まれるテキストを取得したいと思っています。item_priceだけに限定すると値が取得できるので、もしかしたらそれ以上、特定できないのかと思いました。 お手数をおかけしますが宜しくお願い致します。
barobaro

2018/12/17 12:39

別回答にてプログラム記載しました。
youri0326

2018/12/18 08:29

ありがとうございます。ご指摘の通り記載したら稼働しました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問