質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

1回答

437閲覧

スクレイピングでドメイン等は分かっているがhttps:〇〇〇〇.nnnnnの〇〇〇〇に該当する部分がランダムなサイトを全て取得したい

uram

総合スコア25

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

1クリップ

投稿2023/05/25 00:06

編集2023/05/25 00:22

実現したいこと

ウェブサイトのURLがhttps:〇〇〇〇.nnnnnの様なドメインは分かっているがその前がランダムなウェブサイトが複数存在します。その全てのサイトをスクレイピングしたいです。

前提

pythonで〇〇〇〇部分を総当りするコードを考えたのですが、組み合わせが多すぎて時間がかかりすぎます。

試したこと

アルファベットの小文字、大文字、数字をリスト化し、for文を10回ループさせて組み合わせの総当りを試しました。

教えて頂きたいこと

ウェブサイトのURLがhttps:〇〇〇〇.nnnnnの様なドメインは分かっているがその前がランダムなウェブサイト全てを取得したい。
総当り以外の方法を教えて下さい。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2023/05/25 01:21

スクレイピングは、サイトの管理者に許可を得ているとか、規約に従って専用の API にアクセスしているとかでなければ、迷惑行為になるかもしれないということは認識してますか? クローラーを作って某図書館サイトにアクセスしたら業務妨害とかで逮捕された事例もありますので、甘く見ない方がいいと思います。 逮捕までいかなくても、被害が深刻な場合は損害賠償の訴訟を受けるかもしれません。 訴訟までいかなくても、アクセス遮断ならWeb サーバーの設定で可能なので、多分に可能性はあると思います。帯域ごと遮断され、あなたのやったことで多数の利用者が巻き添えを喰らうことになるかもしれません。 回答するのは迷惑行為の手助けをすることになるかも。
guest

回答1

0

ベストアンサー

何が存在するかわからない限り、不可能です。

ワイルドカードドメインなどの仕掛けを使うことで、技術的にはどんなパターンにも応答するサイトを作ることが可能です。

投稿2023/05/25 00:38

maisumakun

総合スコア145184

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問