質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

タグ

特殊な記法により文書に埋め込む形で記述される付加情報をタグと呼びます。文書構造や書式、文字飾りなどを指示したり、画像や他の文書へのリンクを埋め込むことができる。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

3171閲覧

店舗の住所をスクレイピングしたいが上手く抜けない。(ついでにクローリングもしたい)

Pablito

総合スコア71

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

タグ

特殊な記法により文書に埋め込む形で記述される付加情報をタグと呼びます。文書構造や書式、文字飾りなどを指示したり、画像や他の文書へのリンクを埋め込むことができる。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2020/03/09 04:30

前提・実現したいこと

https://www.cosmospc.co.jp/shop/kyushu/fukuoka/fukuoka/
から店舗の名前と住所をスクレイピングで
抜きたいと考えています。

(本当はhttps://www.cosmospc.co.jp/shop/から、
一気に抜きたいのですが、やり方が分からず、、、)

一応、コードとしては動いてはくれているのですが、
テーブルの中身が空なので、
タグの部分に問題があると思うのですが、
よくわかりません。

該当のソースコード

Python

1import requests 2import pandas as pd 3from bs4 import BeautifulSoup 4import os 5import geocoder 6from time import sleep 7 8url1 = "https://www.cosmospc.co.jp/shop/kyushu/fukuoka/fukuoka/" 9cols = ['label','address'] 10df = pd.DataFrame(index=[],columns=cols) 11 12for i in range(1,17): 13 response = requests.get(url1 + str(i)).text 14 soup = BeautifulSoup(response, 'html.parser') 15 16 for tag in soup.find_all('div', class_="label"): 17 atag_stname = tag.find('ah3', class_="storeName") 18 atag_adname = tag.find('span', class_="zip") 19 20 record = pd.Series([atag_stname.text,atag_adname.text,latlon.latlng],index=df.columns) 21 df = df.append(record,ignore_index=True) 22 sleep(2) 23df.to_csv("df_cosmos.csv")

試したこと

findの部分を変えたりしていますが、
上手くいきません。。。

補足情報(FW/ツールのバージョンなど)

参考にしているサイトはこちらです。

何卒宜しくお願い致します。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

HTML の構造というのは、運営者がサイトを更新すれば変化するものなので、スクレイピング系の記事は情報が古くなっていて動かない場合が多いです。

スクレイピングをする場合は、まずサイトの構造を Chrome の開発者ツール など使って、確認してください。

スクレイピングの手順

  1. Chrome の開発者ツールでサイト構造を確認する。
  2. 取得したい情報を抽出するために必要な目印を探す。(クラス名、タグの階層構造など)
  3. find()/find_all() または select()/select_one() を使って、タグを抽出する。

以下、CSS セレクタ を使って、店名、郵便場号、住所を抽出するサンプルコードになります。

python

1import requests 2import pandas as pd 3from bs4 import BeautifulSoup 4from time import sleep 5 6url = "https://www.cosmospc.co.jp/shop/kyushu/fukuoka/fukuoka/" 7res = requests.get(url) 8soup = BeautifulSoup(res.content, "html.parser") 9 10data = [] 11for shop in soup.select(".shop-list_box"): 12 name = shop.h3.rb.text 13 zip_code = shop.select_one(".address .zip").next_sibling 14 address = shop.select_one(".address br").next_sibling 15 16 data.append({"Name": name, "ZipCode": zip_code, "Address": address}) 17 18data = pd.DataFrame(data) 19print(data) 20# Name ZipCode Address 21# 0 姪浜駅前 819-0002 福岡県福岡市西区姪の浜4丁目22-4 22# 1 神松寺 814-0121 福岡県福岡市城南区神松寺1丁目22-29 23# 2 東光寺 812-0896 福岡県福岡市博多区東光寺町1丁目9-7 24# 3 伊都 819-0367 福岡県福岡市西区西都1丁目7-26 25# 4 井尻 811-1302 福岡県福岡市南区井尻1丁目23-1 26# 5 板付 812-0888 福岡県福岡市博多区板付6丁目11-5 27# 6 吉塚 812-0041 福岡県福岡市博多区吉塚5丁目13-28 28# 7 天神大丸前 810-0004 福岡県福岡市中央区渡辺通5丁目24-30東カン福岡第一ビル103 29# 8 中洲五丁目 810-0801 福岡県福岡市博多区中洲5丁目2-1Jパーク中洲ビル1階 30# 9 原中央 814-0022 福岡県福岡市早良区原3丁目14-1

投稿2020/03/09 05:10

tiitoi

総合スコア21956

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Pablito

2020/03/09 05:19

tiitoi様 ご回答ありがとうございます。 大変参考になりました! 引き続きよろしくお願いいたします。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問