###やりたいこと
サイト管理・保守のため自作クローラーを回したいサイトがあります。
- 公開前でベーシック認証がかかっている
- 非同期のページネーションがある
上記の2点でウェブサイトエクスプローラーのような既存のクローラーソフトでカバーできない範囲がありました。
①該当ページにアクセス ↓ 【ここからループ】 ②全てのaタグのhrel属性を取得して配列(変数名はget_urlとする)に入れる 入れるものがなくなったら④に移動 ↓ ③get_url内を該当ドメインのもののみに精査する(精査したURL群をget_url_aとする) 【ここまでループ】 ↓ ④get_url_a[num]にアクセス 【ここからループ】へ移動 ↓ ⑤すべてのページを回遊し、重複のないget_url_aをcsv(sitemap.csv)に書き込む
上記のようなプロセスでサイト全体のURLを取得しようと思っています。
また、下記のような要素を盛り込みたいですが、どこで行うのが最適でしょうか。
- 一度アクセスしたURLは訪れないようにする処理
- 取得した外部のドメインを別の配列で保持し、別のcsv(external_site.csv)に保存する
コード書き始めることはまだしてないのですが、
先に流れを考えておきたいのと、有識者の添削があったらありがたいと思い質問してみました。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2020/01/29 06:40