質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

保存

保存(save)とは、特定のファイルを、ハードディスク等の外部記憶装置に記録する行為を指します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。

Q&A

1回答

826閲覧

pythonでこの情報の保存方法がわかりません

su_da221

総合スコア59

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

保存

保存(save)とは、特定のファイルを、ハードディスク等の外部記憶装置に記録する行為を指します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。

0グッド

0クリップ

投稿2021/11/08 11:04

前提・実現したいこと

https://park.ajinomoto.co.jp/recipe/
上記のページでレシピをスクレイピングしているのですが、今後その情報を利用してレシピ検索サイトを作成する予定です。

現在のスクレイピングでは
「料理区分で探す」より「主菜」「副菜」…とリンクを取得
リンク先で商品情報を取得しています。

情報の構成として
商品1 レシピ名 URL カテゴリー(主菜・副菜など)
商品2 レシピ名 URL カテゴリー(主菜・副菜など)


としたいのですが、レシピ詳細には「主食」「副菜」の表示がないためどのように取得すればいいか分かりません。

発生している問題・エラーメッセージ

どのような配列で取得すべきか分からない

該当のソースコード

python

1from selenium import webdriver 2from selenium.webdriver.common.keys import Keys 3import chromedriver_binary 4from selenium.webdriver.common.action_chains import ActionChains 5from selenium.webdriver.chrome.options import Options 6from time import sleep 7import csv 8import datetime 9 10 11def login(): 12 # Instagramのログインページを指定 13 driver.get('https://park.ajinomoto.co.jp/recipe/') 14 sleep(1) 15 16 category = driver.find_elements_by_xpath('//*[@id="recipeIndex"]/section[2]/div/div[3]/ul/li') 17 if len(category) == 0: 18 print('拾えていない') 19 return 20 21 for cat_html in category: 22 23 cat_a = cat_html.find_element_by_xpath('a').get_attribute('href') 24 cat_text = cat_html.find_element_by_xpath('a/span[2]').text 25 26 cat_list_a.append(cat_a) 27 28 print(cat_a) 29 print(cat_text) 30 31 sleep(1) 32 33def cat_search(link, cat_id, driver): 34 driver.get(link) 35 sleep(1) 36 37 i = 1 38 item_link_list = driver.find_elements_by_xpath('//*[@id="popularityList"]/ul/li') 39 #レシピのリンクを取得 40 for item_link in item_link_list: 41 item_a = item_link.find_element_by_xpath('div[@class="texts"]/div[1]/a').get_attribute('href') 42 43 item_list_a.append(item_a) 44 i = i + 1 45 46 if i > 6: 47 break 48 49 50 51if __name__ == '__main__': 52 # Macの方用のChrome Driverのパスの設定 53 driver = webdriver.Chrome() 54 sleep(1) 55 56 cat_id = 1 57 58 cat_list_a = [] #カテゴリーのリンク先 59 item_list_a = [] # レシピのリンク先 60 61 # ログイン 62 login() 63 64 #カテゴリーリンクに飛ぶ 65 for link in cat_list_a: 66 cat_search(link, cat_id, driver) 67 68 cat_id =+ 1 69 70 print(item_list_a) 71 driver.close() 72

試したこと

上記コードで作成された配列は下記です。

['https://park.ajinomoto.co.jp/recipe/card/705346/', 'https://park.ajinomoto.co.jp/recipe/card/703695/', 'https://park.ajinomoto.co.jp/recipe/card/706981/', 'https://park.ajinomoto.co.jp/recipe/card/701721/', 'https://park.ajinomoto.co.jp/recipe/card/800912/', 'https://park.ajinomoto.co.jp/recipe/card/704642/', 'https://park.ajinomoto.co.jp/recipe/card/800270/', 'https://park.ajinomoto.co.jp/recipe/card/800397/', 'https://park.ajinomoto.co.jp/recipe/card/800722/', 'https://park.ajinomoto.co.jp/recipe/card/703164/', 'https://park.ajinomoto.co.jp/recipe/card/708378/', 'https://park.ajinomoto.co.jp/recipe/card/800317/', 'https://park.ajinomoto.co.jp/recipe/card/704422/', 'https://park.ajinomoto.co.jp/recipe/card/708304/', 'https://park.ajinomoto.co.jp/recipe/card/704411/', 'https://park.ajinomoto.co.jp/recipe/card/801305/', 'https://park.ajinomoto.co.jp/recipe/card/703024/', 'https://park.ajinomoto.co.jp/recipe/card/706043/', 'https://park.ajinomoto.co.jp/recipe/card/701794/', 'https://park.ajinomoto.co.jp/recipe/card/706796/', 'https://park.ajinomoto.co.jp/recipe/card/705649/', 'https://park.ajinomoto.co.jp/recipe/card/705648/', 'https://park.ajinomoto.co.jp/recipe/card/702899/', 'https://park.ajinomoto.co.jp/recipe/card/702395/', 'https://park.ajinomoto.co.jp/recipe/card/706119/', 'https://park.ajinomoto.co.jp/recipe/card/703009/', 'https://park.ajinomoto.co.jp/recipe/card/706589/', 'https://park.ajinomoto.co.jp/recipe/card/710244/', 'https://park.ajinomoto.co.jp/recipe/card/706107/', 'https://park.ajinomoto.co.jp/recipe/card/706116/']

現状は各カテゴリー(主菜・副菜など)では6個ずつ取得していますが、本番では全てを保存する予定ですので6個ずつで区切ることはできません

補足情報(FW/ツールのバージョンなど)

mac
python 3.8.8
selenium

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

「レシピ詳細には「主食」「副菜」の表示がないためどのように取得すればいいか分かりません。」
→詳細にはないですが各ページの冒頭にでかでかと「主菜」「副菜」「デザート」といった表示がのってますよね?
そもそもそれらは、自分から「主菜」「副菜」「デザート」といったカテゴリーごとにページを取得しに行っているのですから、
単純にそれをそのレシピのカテゴリーに指定すればいいだけじゃないですかね。

from selenium import webdriver from selenium.webdriver.common.keys import Keys import chromedriver_binary from selenium.webdriver.common.action_chains import ActionChains from selenium.webdriver.chrome.options import Options from time import sleep import csv import datetime def get_categories(): category_items = [] # Instagramのログインページを指定 driver.get('https://park.ajinomoto.co.jp/recipe/') sleep(1) category_page = driver.find_elements_by_xpath( '//*[@id="recipeIndex"]/section[2]/div/div[3]/ul/li') if len(category_page) == 0: print('拾えていない') return for cat_html in category_page: cat_link = cat_html.find_element_by_xpath('a').get_attribute('href') cat_text = cat_html.find_element_by_xpath('a/span[2]').text category_items.append({"link": cat_link, "text": cat_text}) print(cat_link) print(cat_text) sleep(1) return category_items def get_recipe(category, driver): recipe_items = [] driver.get(category["link"]) sleep(1) i = 1 recipe_page = driver.find_elements_by_xpath('//*[@id="popularityList"]/ul/li') # レシピのリンクを取得 for recipe_html in recipe_page: url = recipe_html.find_element_by_xpath( 'div[@class="texts"]/div[1]/a').get_attribute('href') recipe_items.append({"url": url, "category": category["text"]}) i = i + 1 if i > 6: break return recipe_items if __name__ == '__main__': # Macの方用のChrome Driverのパスの設定 driver = webdriver.Chrome() sleep(1) categories = [] # カテゴリーのリンク先 recipes = [] # レシピのリンク先 # ログイン categories = get_categories() # カテゴリーリンクに飛ぶ for category in categories: recipes.extend(get_recipe(category, driver)) print(recipes) driver.close()

投稿2021/11/08 13:12

編集2021/11/08 14:33
退会済みユーザー

退会済みユーザー

総合スコア0

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問