URL内のURLを「次へ」の分だけ取得したい

##Python BeautifulSoupでのスクレイピング
####解決したい事
取得したURL内にジャンル毎のURLがあり全てを取得したい。
（ジャンル毎のURL内に「次へ」ボタンがある場合全てのページ分）

python
1#ジャンル毎のURLは取得済みでリストに入っています。
2url_list = []
3for i in url_list:
4    r = requests.get(i)
5    soup = BeautifulSoup(r.text)
6    get_next = soup.find('li',class_ = ('next'))
7
8#１ページのみの場合はNoneが表示される為、複数ページある場合は「次ページ」を取得
9    if get_next != None:
10        next_pages2 = get_next.select('a[href]')
11        for next_pages in next_pages2:
12            next_page = 'https://----' + n_pages.get('href')
13        print(n_page)
14

####問題点
・このコーディングだと複数ページある場合は、２ページ目のみを取得になっている為、全ページにしたい。
####試した事
・ifの箇所をwhile文に変更した。←１ページ目の「次へ」から２ページ目を取得。２ページ目の「次へ」から３ページ目を取得。を繰り返して欲しいのに、１ページ目の「次へ」から２ページ目を取得を無限ループしてしまう。

行動規範の内容に同意します

回答1件

正確な状況がわかりませんが、再帰関数を使えば解決できる状況のような気がします。

python
1def get_page(url):
2    r = requests.get(url)
3    soup = BeautifulSoup(r.text)
4    get_next = soup.find('li',class_ = ('next'))
5    sleep(3)
6    if get_next:
7        next_page_url = get_next.select('a[href]')
8        get_page(next_page_url)
9
10for url in url_list:
11    get_page(url)

投稿2021/11/03 08:25

etherbeg

総合スコア1195

Zarathustra

2021/11/03 16:01

etherbeg様ご回答ありがとうございました。前進しましたが別の問題点が発生しました。リスト内の最後のURLが7ページ分あるので、試したところ6回分処理がちゃんとされました。printで表示させると全てNoneになってしまいURLとして表示されませんでした。

etherbeg

2021/11/03 21:53 編集

私の回答は繰り返し処理についての考え方を示したものです。 BeautifulSoupを使ってHTMLソースから情報（URL)を取得する部分については、HTMLソースがわからず、また質問文のソースコードもよくわからなかったので、回答文のその部分については、質問文のソースコードからの適当なつぎはぎです。「正確な状況がわからない」と書いたのはそのような意味です。繰り返し処理についての問題は解決しましたか？　もし解決したのであれば、この質問は「解決済」にステータスを変更した上で、別の問題については新たに質問を立てていただくのが望ましいです。

Zarathustra

2021/11/04 13:09

繰り返し処理は無事できました。ありがとうございます。

行動規範の内容に同意します