質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.58%

python3 / beautifulsoup / 特定サイト内スクレイピング

解決済

回答 1

投稿

  • 評価
  • クリップ 2
  • VIEW 1,596

sadie

score 18

現在のコードで収集できるアドレス情報の他に「事業者名」「住所」「電話番号」「紹介文(◆で始まる文章)」もあわせて収集するようにしたく考えております
ご教授頂けると幸いです
https://itp.ne.jp/genre_dir/syaken/?ngr=1&sr=1このページにある情報を収集するつもりです

※titoiさん、ご覧頂いていると思います。個別依頼等の方がよろしければその旨ご指示ください

import time
import csv
import re
import requests
import bs4

# 取得ページ分だけURLを生成して、配列に保持する。
begin = 5  # 取得開始ページ
end = 10  # 取得終了ページ
base_url = 'https://itp.ne.jp/genre_dir/syaken/pg/{page_no}/'
urls = [base_url.format(page_no=i) for i in range(begin, end)]
print(urls)

# 配列を一個づつ回して、htmlを解析して、メールアドレスだけ取得
addrs = []
for url in urls:
    print('fetching... ' + url)
    res = requests.get(url)
    soup = bs4.BeautifulSoup(res.text, 'html.parser')
    for a_tag in soup.find_all('a', class_='boxedLink emailLink'):
        match = re.search(r'[\w\.-]+@[\w\.-]+', a_tag['onclick'])
        if match:
            addrs.append([match.group(0)])

    time.sleep(1)  # アクセス間隔
print(addrs)

with open('test.csv', 'w', encoding='utf8') as f:
    writer = csv.writer(f)
    writer.writerows(addrs)
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

0

詰まったらこちらで質問するのはいいですが、まずは Beautiful Soup の勉強をして、ご自身でも試されてはどうでしょうか。

スクレイピングの手順

  1. ブラウザでサイトの情報がほしい箇所の HTML 構造がどうなっているか確認する。(Chrome ならその箇所を右クリックし、検証を選択」
  2. soup.find()、soup.find_all()、soup.select() などで該当箇所の DOM を選択する。
  3. テキストを抽出し、replace()、strip()、正規表現など使い、ゴミを取り除く。

「事業者名」「住所」「電話番号」「紹介文」「郵便番号」「メールアドレス」を抽出するサンプルコードを記載しました。

import time
import csv
import re
import requests
import bs4

# 取得ページ分だけURLを生成して、配列に保持する。
begin = 5  # 取得開始ページ
end = 10  # 取得終了ページ
base_url = 'https://itp.ne.jp/genre_dir/syaken/pg/{page_no}/'
urls = [base_url.format(page_no=i) for i in range(begin, end)]
print(urls)

# 配列を一個づつ回して、htmlを解析して、メールアドレスだけ取得
info = []
for url in urls:
    print('fetching... ' + url)
    res = requests.get(url)
    soup = bs4.BeautifulSoup(res.text, 'html.parser')

    selctions = soup.select('section')
    sections = soup.find_all('section', attrs={'class': None})
    for section in sections:
        name = section.h4.a.string  # 事業所名
        link = section.h4.a['href']  # URL
        p_tags = section.find_all('p')
        if p_tags[0].string:  # 説明は存在しない場合がある
            desc = p_tags[0].string.strip().replace('\u3000', '')  # 説明
        else:
            desc = None
        addr = p_tags[1].span.next_sibling.strip()
        postal_code = addr.split('\u3000')[0]  # 郵便番号
        addr = addr.split('\u3000')[1]  # 住所
        tel = p_tags[2].b.string  # 電話番号
        mail = p_tags[3].find('a', class_='boxedLink emailLink')  # メールアドレス
        if mail:  # メールアドレスは掲載していない場合がある
            match = re.search(r'[\w\.-]+@[\w\.-]+', mail['onclick'])
            mail = match.group(0)
        info.append({'name': name, 'description': desc, 'postal_code': postal_code,
                     'address': addr, 'tel': tel, 'mail': mail})
#     from pprint import pprint
#     pprint(info)

    time.sleep(1)  # アクセス間隔

with open('test.csv', 'w', encoding='utf8') as f:
    writer = csv.DictWriter(f, fieldnames=info[0].keys())
    writer.writerows(info)

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/10/29 13:44

    ご返信ありがとうございます
    私にお教え頂く作業自体を、クラウドソーシング等で有償依頼発注する方がよろしいでしょうか?
    いつもtitoiさんが完ぺきなサンプルコードと内容教示をくださるので、お礼をお伝えするだけで足りていないと考えたためです

    キャンセル

  • 2018/10/29 13:55 編集

    teratail は仕事中に息抜きにやっているだけなので、有償依頼は責任が発生することと、時間がとれる保証ができないので、申し訳ないですが、難しいです。

    teratail はあくまでわからないことを聞く質問サイトなので、ご自身で試してみて詰まった場合はこれまで通り teratail で聞いてよいかと思います。
    依頼ということであれば、クラウドソーシングを活用されるとよいと思います。

    ランサーズをちょっと見てみましたが、スクレイピングでしたら数千円~依頼できるようです。
    https://www.lancers.jp/work/search?keyword=%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0

    キャンセル

  • 2018/10/29 17:55

    ありがとうございます

    「実践力を身につける Pythonの教科書」早速購入しました
    勉強します!

    引き続きよろしくお願いいたします

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.58%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る