プログラミング超初心者で初めて質問させていただきました。相談内容は以下の通りです。
前提・実現したいこと
イエウールのWebサイトに掲載されている全ての不動産会社の電話番号をスクレイピングしたいです。リンクはこちらです:https://ieul.jp/company/
階層を説明すると:
ー階層1:五十音順で不動産会社が整理されているPage
ー階層2:不動産個社ごとのPage(電話番号が記載)
上記の階層を踏まえた上で、あ行〜わ行までの全ての不動産会社の電話番号を取得したいでです。
発生している問題・エラーメッセージ
階層化されたサイトをクローリング(=複数ページを移動・遷移しテキストを取得)する部分で壁にぶつかっています。
具体的に言うと以下のStepがうまく回らないです:
ーStep1:あ行にある不動産会社一覧で、個社ごとのページに行き、各社の電話番号をテキストで取得
ーStep2:あ行完を了後、か行に移動し、Step1と同様の処理を実行
ーStep3:同じ作業をわ行まで繰り返す
なぜうまく回らないかと言うと以下3点です:
❶どのようにコードを組めば、自動で同じで横の階層(あ行→か行)に移動させるかわからない
❷どのようにコードを組めば、自動で1つ奥の階層(個社ごとのPage)に移動させるかわからない
❸どのようにコードを組めば、上記1、2を繰り返すように設定できるのかわからない
試したこと
- あ行→か行に遷移する際のタグ・属性は「href="/company/ka/"」とわかるのですが、どのようにコード組めば自動で遷移するかたどり着けていないです
- 五十音順(あ行のページ)→不動産個社のサイトに遷移する際は「href="/company/・・・//"とcompany」とcompanyの後は各社違う属性値なので、どのようにコード組めば自動で遷移するかたどり着けていないです
スクレイピングを日頃されている方からすると簡単な問題かもですが、
どうか知恵をお貸しいただけるとありがたいです。