質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。

Q&A

解決済

2回答

992閲覧

pandasのDataFrameに逐一要素を追加する方法

tatsuya5.22

総合スコア8

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。

0グッド

0クリップ

投稿2020/09/21 13:13

編集2020/09/21 13:20

Python

1import pandas as pd 2import requests 3from bs4 import BeautifulSoup 4from selenium import webdriver 5import time 6 7driver = webdriver.Chrome() 8driver.get() 9time.sleep(5) 10 11url = "https://www.ubereats.com/jp/kyoto/food-delivery/%E3%83%8F%E3%83%BC%E3%83%88%E3%83%AD%E3%83%83%E3%82%AF%E3%82%AB%E3%83%95%E3%82%A7-%E4%BA%AC%E9%83%BD%E5%BA%97-hard-rock-cafe-kyoto/U1gYCSr9QfyIVEwcA2U5cQ?pl=JTdCJTIyYWRkcmVzcyUyMiUzQSUyMiVFNCVCQSVBQyVFOSU4MyVCRCVFNSVCOCU4MiUyMiUyQyUyMnJlZmVyZW5jZSUyMiUzQSUyMkNoSUo4Y004emRhb0FXQVJQUjI3YXpZZGxzQSUyMiUyQyUyMnJlZmVyZW5jZVR5cGUlMjIlM0ElMjJnb29nbGVfcGxhY2VzJTIyJTJDJTIybGF0aXR1ZGUlMjIlM0EzNS4wMTE1NjQlMkMlMjJsb25naXR1ZGUlMjIlM0ExMzUuNzY4MTQ4OSU3RA%3D%3D" 12 13driver.get(url) 14time.sleep(5) 15 16soup = BeautifulSoup(driver.page_source,"html.parser") 17 18genre = soup.find(class_="bw bx by eg") 19genre_name = genre.string 20 21store_address = soup.find(class_='b8 b9 ba as em') 22address = store_address.string 23 24score = soup.find(class_="bw bx by eg au aw") 25scores = score.get_text() 26 27work_hours = soup.find(class_="en em") 28hours = work_hours.get_text() 29 30m = soup.find_all(class_="g0 g1 g2 aj") 31m_list = str(len([menu.get_text() for menu in m])) 32 33d = soup.find_all(class_="bw bx by fz") 34d_list = str(len([menu.get_text() for menu in d])) 35 36Data = pd.DataFrame( 37 { 38 'ジャンル': [genre_name], 39 '住所': [address], 40 '評価(評価数)': [scores], 41 '営業時間': [hours], 42 'メニュー数': [m_list], 43 '説明記載メニュー数': [d_list] 44 }) 45 46Data.to_csv('data.csv')

上記のコードで下のようなDataFrameを作りました。
イメージ説明

自分がわからない点は、pandasのDataFrameに各店舗のページから取得した「ジャンル、住所、評価(評価数)、営業時間、メニュー数、説明記載メニュー数」の要素を後から逐一追加していくことは可能なのかどうか、また可能ならばどのようなコードを書けば良いのか、です。
イメージとしては、各項目の下に取得した情報を追加していくような感じです。

下記のコードは今書いている途中のコードであり未完成のものです。他に良いコードがありましたら全然変えてもらって大丈夫です。

Python

1for i in URL_list(): 2 driver.get(i) 3 time.sleep(5) 4 soup = BeautifulSoup(driver.page_source,"html.parser") 5 6 genre = soup.find(class_="bw bx by eb") 7 genre_name = genre.string 8 9 store_address = soup.find(class_='b8 b9 ba as eh') 10 address = store_address.string 11 12 score = soup.find(class_="bw bx by eb au aw") 13 scores = score.get_text() 14 15 work_hours = soup.find(class_="ei eh") 16 hours = work_hours.get_text() 17 18 m = soup.find_all(class_="g2 g3 g4 aj") 19 m_list = str(len([menu.get_text() for menu in m])) 20 21 d = soup.find_all(class_="bw bx by ec") 22 d_list = str(len([menu.get_text() for menu in d])) 23 24 l_Data = pd.DataFrame( 25 { 26 'ジャンル': [genre_name], 27 '住所': [address], 28 '評価(評価数)': [scores], 29 '営業時間': [hours], 30 'メニュー数': [m_list], 31 '説明記載メニュー数': [d_list] 32 })

店舗のURLは全て取得しているので、URL_listから各店舗のURLを呼び出しdriver.get()で各店舗のページに飛び、そこから「ジャンル、住所、評価(評価数)、営業時間、メニュー数、説明記載メニュー数」を取得してDataFrameに追加していく、そしてfor構文でループを作り全ての店舗の情報を取得するという感じで進めて行こうかと思いましたがここから先どうしていいかわからなくなりました。

ご教授願います。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

一旦リストに保存してから最後にDataFrameに変換したのでいいのでは

python

1data = [] 2 3for i in URL_list(): 4 5 # スクレイピング 6 7 temp = { 8 "ジャンル": genre_name, 9 "住所": address, 10 "評価(評価数)": scores, 11 "営業時間": hours, 12 "メニュー数": m_list, 13 "説明記載メニュー数": d_list, 14 } 15 16 data.append(temp) 17 18 19df = pd.DataFrame(data)

投稿2020/09/22 01:44

barobaro

総合スコア1286

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

https://teratail.com/questions/293230
における私の回答が、スクレイピングしたリストをpandasのDataFrameにどんどん追記していく、という例になっています。(Noneの処理もしていますが、これは省略できるかも)

目的に近いと思います。ご確認ください。

投稿2020/09/21 14:30

toast-uz

総合スコア3266

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問