質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

87.49%

【Python】【クローリング/スクレイピング】Beautifulsoupによる抽出

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 516

score 11

https://r.gnavi.co.jp/a188901/ を対象に行なっています。
ここからメニューの中にあるテキストとURLを取得したいのですが以下のところまでいってからその続きが上手くいかなくお力添え頂きたいと思っております。
具体的に:find(find_all)の結果に対してfindが使えなくどうしていいかわからない

環境 Python 3.5.4

自分のコード(一部)

import requests
from bs4 import BeautifulSoup

def Crawl(URL):
    r = requests.get(URL)
    assert r.status_code==200, 'status code:{}'.format(r.status_code)
    r.encoding = r.apparent_encoding 
    return BeautifulSoup(r.text, 'html.parser')

soup = Crawl('https://r.gnavi.co.jp/a188901/')
soup.find('li', id='nav-main-menu')

このfindによって以下まで抽出できます。ここからがfindのresultsetになるため、重ねてのfindやget, selectが使えなく困っています。

<li id="nav-main-menu">
<a href="https://r.gnavi.co.jp/a188901/menu1/">メニュー</a>
<ul class="child">
<li class="first">
<a href="https://r.gnavi.co.jp/a188901/menu1/">2時間飲み放題</a>
</li>
<li>
<a href="https://r.gnavi.co.jp/a188901/menu3/">おすすめの逸品</a>
</li>
<li>
<a href="https://r.gnavi.co.jp/a188901/menu5/">定番/デザート</a>
</li>
<li class="last">
<a href="https://r.gnavi.co.jp/a188901/menu6/">ドリンク</a>
</li>
</ul>
</li>

コードは一部のみ記載しているので動作問題があれば指摘をお願いいたします。
他に、記載すべきことが等あればご指導ご鞭撻お願い致します。

参考:具体的に抽出したい場所
具体的に抽出したい場所

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • tiitoi

    2019/03/16 16:07

    「メニューの中にあるテキストとURL」がどの箇所のことをいっているのかわからないので、キャプチャした画像に赤く印を付けていただけますか?

    キャンセル

  • I_KAMAKURA

    2019/03/16 16:15

    失礼いたしました。
    画像を掲載しましたのでご確認お願いします。掲載した後に厳密には不適切だと感じました。
    正確にはメニューをおした後のプルダウンメニューのことです。

    キャンセル

回答 1

checkベストアンサー

0

このような意図であっていますでしょうか?

import requests
from bs4 import BeautifulSoup

def Crawl(URL):
    r = requests.get(URL)
    assert r.status_code==200, 'status code:{}'.format(r.status_code)
    r.encoding = r.apparent_encoding 
    return BeautifulSoup(r.text, 'html.parser')

soup = Crawl('https://r.gnavi.co.jp/a188901/menu1/')

links = []
for a in soup.select('li[id="nav-main-menu"] a'):
    links.append([a.string, a['href']])

from pprint import pprint
pprint(links)
# [['メニュー', 'https://r.gnavi.co.jp/a188901/menu1/'],
#  ['2時間飲み放題', 'https://r.gnavi.co.jp/a188901/menu1/'],
#  ['おすすめの逸品', 'https://r.gnavi.co.jp/a188901/menu3/'],
#  ['定番/デザート', 'https://r.gnavi.co.jp/a188901/menu5/'],
#  ['ドリンク', 'https://r.gnavi.co.jp/a188901/menu6/']]

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/03/16 16:29

    はい、ありがとうございます!
    そういう書き方か・・・もっと勉強します!助かりました。

    キャンセル

  • 2019/03/16 16:32 編集

    find_all() の返り値の ResultSet に対して、さらに条件を絞る場合、for a in soup.find_all(条件): のループの中で各要素の a.find(条件) を呼び出せばいいですが、条件を絞るという工程が増えてくると冗長になるので、基本的には CSS セレクタを使ったほうが簡潔にかけます
    http://www.htmq.com/csskihon/005.shtml

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 87.49%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る