回答率: 85.26%

質問するログイン新規登録

トップ 7に関する質問 Python ウェブスクレイピングデータが取得できない

編集履歴

質問編集履歴

2

「実現したいこと」の欄に文章を追加

2020/09/04 06:08

投稿

スコア8

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -5,6 +5,10 @@
 自分が解析しているUberEatsのウェブページではお店の名前が埋め込まれているコードが<div class="fa i8 i9">の中に隠れており、本来は表示されていないためお店の名前のデータを取得しようとしてもできません。
+https://www.ubereats.com/jp/feed?pl=JTdCJTIyYWRkcmVzcyUyMiUzQSUyMiVFNSU5MCU5MSVFNiU5NyVBNSVFNSVCOCU4MiUyMiUyQyUyMnJlZmVyZW5jZSUyMiUzQSUyMkNoSUpMNlpKcGlZRUFXQVI1X0hOWFpWTDZYYyUyMiUyQyUyMnJlZmVyZW5jZVR5cGUlMjIlM0ElMjJnb29nbGVfcGxhY2VzJTIyJTJDJTIybGF0aXR1ZGUlMjIlM0EzNC45NDg3MDYxJTJDJTIybG9uZ2l0dWRlJTIyJTNBMTM1LjY5ODQxNzElN0Q%3D
+上記のページから店名のデータを全て取得しようとしております。
 ### 発生している問題・エラーメッセージ
 ```Python

1

・classのcc el ag bp bqで、l(エル)が1(いち)になっていた・img altを取得するのにget_text()を使っていたのでfind('img').get("alt")に修正

2020/09/04 06:08

投稿

スコア8

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -7,7 +7,7 @@
 ### 発生している問題・エラーメッセージ
-```
+```Python
 import pandas as pd
 import requests
 from bs4 import BeautifulSoup
@@ -15,8 +15,8 @@
 page = requests.get('https://www.ubereats.com/jp/feed?pl=JTdCJTIyYWRkcmVzcyUyMiUzQSUyMiVFNSU5MCU5MSVFNiU5NyVBNSVFNSVCOCU4MiUyMiUyQyUyMnJlZmVyZW5jZSUyMiUzQSUyMkNoSUpMNlpKcGlZRUFXQVI1X0hOWFpWTDZYYyUyMiUyQyUyMnJlZmVyZW5jZVR5cGUlMjIlM0ElMjJnb29nbGVfcGxhY2VzJTIyJTJDJTIybGF0aXR1ZGUlMjIlM0EzNC45NDg3MDYxJTJDJTIybG9uZ2l0dWRlJTIyJTNBMTM1LjY5ODQxNzElN0Q%3D')
 soup = BeautifulSoup(page.content, 'html.parser')
-menus = soup.find_all(class_= 'cc e1 ag bp bq')
+menus = soup.find_all(class_= 'cc el ag bp bq')
-menu_list = [menu.get_text() for menu in menus]
+menu_list = [menu.find('img').get("alt") for menu in menus]
 print(menu_list)
@@ -30,6 +30,16 @@
 ### 該当のソースコード
+下記のHTMLのソースコードはウェブページのHTMLの一部を抜き出してきたものです。
+下記のコードをそのままコードの中に入れるのではなく、あくまでも下記のPyhtonのコードを使って該当ページのHTMLデータを取得してスクレイピングしたいのです。
+```Python
+page = requests.get('https://www.ubereats.com/jp/feed?pl=JTdCJTIyYWRkcmVzcyUyMiUzQSUyMiVFNSU5MCU5MSVFNiU5NyVBNSVFNSVCOCU4MiUyMiUyQyUyMnJlZmVyZW5jZSUyMiUzQSUyMkNoSUpMNlpKcGlZRUFXQVI1X0hOWFpWTDZYYyUyMiUyQyUyMnJlZmVyZW5jZVR5cGUlMjIlM0ElMjJnb29nbGVfcGxhY2VzJTIyJTJDJTIybGF0aXR1ZGUlMjIlM0EzNC45NDg3MDYxJTJDJTIybG9uZ2l0dWRlJTIyJTNBMTM1LjY5ODQxNzElN0Q%3D')
+soup = BeautifulSoup(page.content, 'html.parser')
+```
 ```HTML
 <div class="fa i8 i9">
    <div class="af ia">
@@ -51,6 +61,9 @@
 ### 試したこと
 上記に記載した通りfind関数でスクレイピングしようと試みましたが残念ながら。。。
+以下２点修正いたしましたが以前店名の情報は獲得できずにおります。
+・classのcc el ag bp bqで、l(エル)が1(いち)になっていた
+・img altを取得するのにget_text()を使っていたのでfind('img').get("alt")に修正