スクレイピングでドメイン等は分かっているがhttps:〇〇〇〇.nnnnnの〇〇〇〇に該当する部分がランダムなサイトを全て取得したい

実現したいこと

ウェブサイトのURLがhttps:〇〇〇〇.nnnnnの様なドメインは分かっているがその前がランダムなウェブサイトが複数存在します。その全てのサイトをスクレイピングしたいです。

前提

pythonで〇〇〇〇部分を総当りするコードを考えたのですが、組み合わせが多すぎて時間がかかりすぎます。

試したこと

アルファベットの小文字、大文字、数字をリスト化し、for文を10回ループさせて組み合わせの総当りを試しました。

教えて頂きたいこと

ウェブサイトのURLがhttps:〇〇〇〇.nnnnnの様なドメインは分かっているがその前がランダムなウェブサイト全てを取得したい。
総当り以外の方法を教えて下さい。

退会済みユーザー

2023/05/25 01:21

スクレイピングは、サイトの管理者に許可を得ているとか、規約に従って専用の API にアクセスしているとかでなければ、迷惑行為になるかもしれないということは認識してますか？クローラーを作って某図書館サイトにアクセスしたら業務妨害とかで逮捕された事例もありますので、甘く見ない方がいいと思います。逮捕までいかなくても、被害が深刻な場合は損害賠償の訴訟を受けるかもしれません。訴訟までいかなくても、アクセス遮断ならWeb サーバーの設定で可能なので、多分に可能性はあると思います。帯域ごと遮断され、あなたのやったことで多数の利用者が巻き添えを喰らうことになるかもしれません。回答するのは迷惑行為の手助けをすることになるかも。