いつもお世話になっております。
下記に記載したようなスクレイピングの課題に取り組んでいますが、調査の足掛かりが分からずこちらで質問させていただきます。
詳細までは話せず概念的な話になっていますが何かしらの知見を頂けますと嬉しいです。
下記のような店舗ページから店舗名、住所などを取得しようと考えています。
A:https://www.targetsite.com/shop/0001/
ただし、上記にアクセスしソースコードを確認すると直接店舗名は記載されておらず、jsファイルの読み込みで動的に生成されるサイトです。
調査を進めると、下記のようなjsファイルの読み込みで、あるパラメータを生成しCのようなURLを生成してそこにjsonデータ形式で店舗名などがあることが分かりました。
(CのURLに諸々のパラメータのフォームデータをPOSTするのですが、このフォームデータについては生成方法に目途がついています)
B:https://~~~~~.com/webapp/~~~~~~~~.dll.js
C:https://www.targetsite.com/shop/info?param=~~~~~~~~~ (param=以降が生成値)
問題は、BのURLに使用するパラメータの生成について調べましたが、JSファイルの中のある処理で乱数を使って生成しているため、特定が難しいです。
自分の認識では、AのURLにアクセスする度にBを含む諸々のJSを読み込んでCのURLを生成していると認識しています。
CのようなURLは決まった形はなく、もしCのURLの中身を取得するには一回一回JSファイルを実行しないといけないのではないか、とも認識しています。
自分が勉強不足なだけと思いますが、curlなどを用いて上記を実現するのは難しいのではないかと考えています。
前提条件があいまいな状態で恐縮ですが、上記のような動的サイトからスクレイピングを行うにはどういった調査が必要か方法があるか知見を共有いただけますと嬉しいです。
あなたの回答
tips
プレビュー