質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

87.95%

通常のHTMLのソース表示だと表示されないウェブページのスクレイピングがしたい

受付中

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 108

score 20

コロナワクチン接種会場を取りまとめている厚生労働省のページ(https://v-sys.mhlw.go.jp/search/)
から、下記のようなファイルを作成したいと思いました。

  都道府県    市町村   施設名   住所   予約可否   一般可否  ワクチンメーカー

例えば、札幌市などでは、
https://v-sys.mhlw.go.jp/search/list.html?id=011002&availableOnly=on&generalPracticeOnly=on&keyword=&vaccineMaker=&page=1
がURLになるのですが、
以下のような、ウェブ表示のコードを書いても、施設が表示されません。

import aiohttp
import asyncio

async def fetch(session, url):
async with session.get(url) as response:
print(await response.text())

async def main():
async with aiohttp.ClientSession() as session:
await asyncio.gather(
fetch(session, 'https://v-sys.mhlw.go.jp/search/list.html?id=011002&availableOnly=on&generalPracticeOnly=on&keyword=&vaccineMaker=&page=1'),
)

asyncio.run(main())

そこで、AsyncHTMLSession などのライブラリが関係するのかと思って、調べたりしたのですが、
どうも見当違いのことをしているようにも思えます。

このページの施設を表示するためのヒントがいただければと藁をもすがる思いで、質問させていただきます。
何卒、ご教示のほど、よろしくお願い申し上げます。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

0

https://v-sys.mhlw.go.jp/search/

↑から各都道府県ページをスクレイピングして
さらに各都道府県ページにはいって市区町村コードをスクレイピングし、
あとは
https://v-sys.mhlw.go.jp/api/municipalities/(市区町村コード)/medical-institutions?lang=ja&page=(ページ数)&size=99

をリクエストすれば施設一覧のデータのJSONが取得できるんじゃないですかね

取得できるデータ例

{
  "prefectureCode" : "010006",
  "prefectureName" : "北海道",
  "municipalityCode" : "011002",
  "cityName" : "札幌市",
  "cityNotice" : null,
  "cityContact" : null,
  "cityPhone" : null,
  "cityLinkTitle1" : null,
  "cityLinkTitle2" : null,
  "cityLinkTitle3" : null,
  "cityUrl1" : null,
  "cityUrl2" : null,
  "cityUrl3" : null,
  "suggestions" : [ "中央区", "北区", "東区", "白石区", "豊平区", "南区", "西区", "厚別区", "手稲区", "清田区" ],
  "ministryNotice" : null,
  "ministryLinkTitle" : null,
  "ministryUrl" : null,
  "totalCount" : 759,
  "message" : null,
  "medicalInstitutions" : [ {
    "prefectureCode" : "010006",
    "municipalityCode" : "011002",
    "code" : "26765",
    "name" : "しもかわ内科・循環器内科",
    "homepageUrl" : null,
    "postCode" : "001-0029",
    "cityName" : "札幌市",
    "address" : "北区北29条西15丁目3番8号",
    "searchAddress" : "北海道札幌市北区北29条西15丁目3番8号",
    "reservationAvailability" : "AVAILABLE",
    "notice" : null,
    "generalPractice" : "NOT_AVAILABLE",
    "reservationAvailabilityTel" : true,
    "reservationTel" : "0117161300",
    "receptionHours" : null,
    "reservationAvailabilityWeb" : false,
    "reservationWeb" : null,
    "handlingVaccinePfizer" : true,
    "handlingVaccineAz" : false,
    "handlingVaccineTakedaModerna" : false,
    "lastModifiedDate" : "2021年5月25日",
    "parkingLot" : "20台"
  }]
}

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2021/06/11 13:31

    すみません。ありがとうございます。言葉足らずでした。テキストなどを見て、やったところ、HTMLのタグをfindするようなやり方があったのですが、今回、ソースのHTMLに全く、接種場所が表出しておらず、足掛かりすら見つからないために、おっしゃるように、もしコードがいただけるのであれば、それを参考にさせていただければと思います。重ね重ね、言葉が足りておらずすみません。よろしくお願い申し上げます。

    キャンセル

  • 2021/06/11 13:33 編集

    (削除)

    キャンセル

  • 2021/06/11 13:50

    ありがとうございます。こんなことができないかと言われたことなのですが、自分で考えても分からなかったので、きっかけのコードが欲しいと思いました。案件というのかどうかが分かりませんが、そういう状態です。回答可能であれば、ご教示いただけますと幸いです。

    import pandas as pd
    import requests
    from bs4 import BeautifulSoup

    r = requests.get("https://v-sys.mhlw.go.jp/search/list.html?id=011002&availableOnly=on&generalPracticeOnly=on&keyword=&vaccineMaker=&page=1")
    text = r.text
    for line in text.split('\n'):
    if '<title>' in line or '<h1>' in line:
    print(line.strip())

    みたいなことをしているのですが、どうも的を得ていないようです。。。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 87.95%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る