質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

2回答

1837閲覧

Pythonスクレイピング:URLリストを入手→そのURLページごとに一部をスクレイピングしてCSVに保存したい。初学者

pumskin

総合スコア1

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

1クリップ

投稿2020/05/29 16:39

編集2020/06/01 13:32

実現したいこと

①こちら(https://ramendb.supleks.jp/search?page=1&order=point&station-id=0&tags=3)のURLから各店舗のURLをスクレイピングする。
②各店舗のURLにアクセスし、店舗名、住所、開店日の情報を抽出する。
③終わったら次の20件のページに遷移し、①→②をする。
④抽出した情報をCSVに保存する。

知りたい事

h4タグ内のhref属性のみ抽出し、絶対URLに変換したいが取得したいhref属性が取得されてしまいます。
自分が取得したいのは各店舗のURLです。
どのようにタグを指定すればよいのでしょうか。

自分で書いたコード(途中)

import requests from bs4 import BeautifulSoup from urllib.parse import urljoin shop_list_url = 'https://ramendb.supleks.jp/search?q=&state=&order=point&station-id=&tag%5B%5D=3&type=' ua = "" #大元URL base_url = 'https://ramendb.supleks.jp' #検索URL shop_url = base_url + "/search?page=1&order=point&station-id=0&tags=3" page = requests.get(shop_url,headers={"User-Agent" : ua}) soup = BeautifulSoup(page.text,"html.parser") for a in soup.select("h4 a"): shop_url_list = urljoin(shop_url,a.get("href")) print(shop_url_list)

返し

print(shop_url_list) https://ramendb.supleks.jp/rank/hot-shop

試したコード

for a in soup.select("#searched > h4 > a"): shop_url_list = urljoin(shop_url,a.get("href"))

至らぬ点が多いと思いますが、宜しくお願い致します。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

変数は、中身にあった変数名を付けましょう。
User-Agentで返すHTMLを変えているようなので、User-Agentの偽装が必要ですね。

Python

1import requests 2from bs4 import BeautifulSoup 3 4ua = "~~~~~" 5 6host = "https://ramendb.supleks.jp" 7url = host + "/search?q=&state=&order=point&station-id=&tag%5B%5D=3&type=" 8page = requests.get(url,headers={"User-Agent": ua}) 9soup = BeautifulSoup(page.text,"html.parser") 10 11a_list = soup.select("h4 a") 12shop_url_list = [a.get("href") for a in a_list] 13 14next_url = soup.select_one("a.next").get("href") 15 16for shop_url in shop_url_list: 17 shop_page = requests.get(host + shop_url,headers={"User-Agent": ua}) 18 shop_soup = BeautifulSoup(shop_page.text,"html.parser") 19 ~~~~

投稿2020/05/30 00:19

otn

総合スコア84533

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

pumskin

2020/06/01 13:33

ありがとうございます。 参考にコードを書いてみましたが、なかなかうまくいきません。
guest

0

まずはこちら(https://ramendb.supleks.jp/search?page=1&order=point&station-id=0&tags=3)のURLから各店舗に移動し、各店舗のURL、店舗名、住所、開店日の情報を抽出するのはいかがでしょうか?
検索結果ページで各店舗のURLを取得するしなく、各店舗の詳細ページでURLを取得するのも可能です。

もし必要であれば、Octoparseをお試しください。
ご要望の流れを簡単に実現できると思います。

投稿2020/06/08 08:58

退会済みユーザー

退会済みユーザー

総合スコア0

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問