下記のホームページから各項目をスクレイピングしたいのですが
、方法がわかりません。
前任者がやめてしまったため、まったく方法がわかりません。
会社のパソコンには「octoparse」というソフトが入っています。
チュートリアルなど見ながらやってみましたが、できませんでした。
【抽出したいサイト】
https://fitness.geomedian.com/area/
https://movie.walkerplus.com/theater/
【抽出したい項目】
各店舗の名称・住所・設備など、一番下の階層に書いてあるデータを抽出したい。
【今の状態】
1ページごとの抽出はチュートリアルを見ながらやると何回かに1回成功します。
そもそもHPの構造がリスト上になっていないため、チュートリアルの方法では何ともならず、ほしい情報は全部リンクがとんだ最後の階層に情報があるので拾えません。
【追記】
ちなみに、私の仕事は広告代理店のパートの事務で、コーディングもプログラミングもやったことがない職種です。
前任者が私の入社前に辞めてしまっており、誰もわかる人がいなかったのですが、私がHTML(個人サイト作成レベル)とエクセルのマクロを組めるという理由で、上司から任されてしまいました。
HTMLの基礎(<head>、body、a href=、img src=)などは分かりますが、それ以上はあまり詳しく分かりません。
今週までに上記の2サイトの他に+3サイト、スクレイピングしないといけませんので、焦っています。
何度か自分なりにやってみたところで下記の方法を考えてみたのですが。
②はなんとかできたものの、①ができず困っています。
【方法】抽出したい要素がある各ページのURLを抽出→すべてのURLをoctoparseに貼り付けて抽出
①抽出したい情報のある各階層ページ(https://fitness.geomedian.com/tokyo/central/)の一つ手前のページで、各階層のURLを抽出
↓↓
②各階層のURLをすべてoctoprseに貼り付けて、それぞれの要素を抽出
