scrapyを使ってターゲットの下の階層のページの再帰的探索

Question

pythonのurllibとbeautifulsoupを組み合わせることでスクレイピングできることはわかりました。
単一のページをターゲットにbeautifulsoupを使って情報を抽出することはできるようになりました。
そこで質問なのですが、どのようにしたら目的のページのサブディレクトリ一覧（例えばhttps://tftactics.gg/championsの一つ下の階層にあたるページ）を抽出することができますか？

Answer

scrapy を使うかどうかにはよりませんが、そのサイトにある他のページの URL を確実に知るためにはアクセスしたページの HTML に含まれる a タグを取得してリンク URL を取得することになります。

例えば、ご質問にある `https://tftactics.gg/champions` のサイトの場合 `https://tftactics.gg/champions/aatrox` のような URL を取得したいということだと理解しました。
この場合、サイトの構造を全く知らない状態であれば `https://tftactics.gg/champions` のページに含まれるリンク URL に `https://tftactics.gg/champions/aatrox` が含まれていて、これがたまたま `/champions` の1つ下の階層の URL だったというように考えます。

一方で、サイトの構造を事前に調査した結果 **「`https://tftactics.gg/champions` のページに含まれれる `a.characters-item` の属性にセットされているリンク先 URL には `/champions` の1つ下の階層の URL がセットされている」** ということが分かっていれば、 `/champions` にアクセスして該当のリンクを抽出すれば取得できるということになります。

なので、サイトの構造を全く知らない状態でいきなり「`/champions` の1つ下の階層の URL を全て取得する」ということはできないのでその場合はそのドメインの全ての URL を取得できるまでは目的の URL を全て取得できないと考えることになりますが、
サイトの構造が事前に分かっているもしくは予想できる場合は、それを前提として特定のページをクロールすることで目的の URL が全て手に入ると考えることができます (前述の例のように `/champions` のページから `/champions` の1つ下の階層の URL が全て取得できると考えるということです)。

関連した質問