やりたいこと:
ある特定のドメイン xxx.co.jp のサイトの中で特定の文字列を含むテキストを抽出したいです。
- ドメイン xxx.co.jp
→ 該当サイトにはディレクトリが多数切られており、 xxx.co.jp/hgoe/aaaa/bbb/piyo.html のようなページを多数含んでいます。
- 文字列(例:メールアドレスを取得したいとした場合、@xxx.co.jp を含むテキストを抽出したいとする)
私が考えている方法:
- xxx.co.jpからクローリングを開始し、すべての被リンクを巡回する。
- ページごとに、re.compile("@xxx.co.jp")のような形で、該当のテキストが含まれるかをチェックする
ただし、該当のサイトのページ数が尋常なく多くこの方法ですと、非効率な気がしております。
お聞きしたいことは、下記の二点です。
- 「あるドメインのサイト(子階層も含む)のメールアドレスを取得する」はそもそも可能であるのか。
- 「あるドメインのサイト(子階層も含む)のメールアドレスを取得する」方法は、私が考えているクローリングの方法よりも効率的なやり方がありますでしょうか?
スクレイピングの処理はPython3.xで記述する予定ですが、言語は特になんでも構いません。
ロジックの部分を教えていただけると大変助かります。
何卒、宜しくお願いいたします。
回答1件
あなたの回答
tips
プレビュー