##やりたいこと
URLのドメインごとに分散したクローリングを行いたい。
例えば、データベースのテーブルに以下のURLが保存されているとします。
https://google.com/1
https://google.com/2
https://google.com/3
https://google.com/4
https://google.com/5
https://google.com/6
https://yahoo.com/1
https://yahoo.com/2
https://yahoo.com/3
https://teratail.com/1
・
・
・
もし、登録されている順に取り出してクローリングを行うとすると、同じドメインが固まっている可能性があります。
その時は相手のサーバーを考慮し次の行へ移るまで、数秒待機する必要があります。
やりたいことはgoogle,yahoo,teratail・・・を同時並行でクローリングすることで、大量の行を最短で回ることができます。
このやり方についてあまり良いアイデアが思いつかなかったので、質問させていただきました。
アイデアなので特に関係ないと思いますが、実際はMySQLにデータを格納し、Pythonで処理を行う予定です。
何か良い案があれば、お教えいただければ幸いです。
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。