次のページがないときに終了したいが終わらない

こんにちは。スクレイピングについて質問です。

現在とあるサイトでスクレイピングを練習しています。

その中で一覧ページを取得し、次のページが存在すれば次のページへ行き、ない場合は終了するようなプログラムを組みたいのですが、次のページがない場合、その最後のページをエンドレスで抽出してしまうようです。

これを解決したいのですが、どうすれば良いでしょうか？

    next_page_tag = soup.find_all("a",{"class", "****"})
    next_page = ''
    if next_page_tag == []:
        pass
    else: # 次ページがある場合
        for page_tag in next_page_tag:
           next_page = top + page_tag.get('href')

...

next_page = url # 1ページ目を初期設定
while next_page != '':
    next_page = f_0(next_page)
print('完了')

行動規範の内容に同意します

回答2件

最後のページでも「次へ」のボタンがあるのでしょうか？

投稿2020/07/03 04:22

退会済みユーザー

総合スコア0

f_0が処理本体の関数で、上半分がその中身なら、passのところをreturn ""にすればいいかと。

投稿2020/06/26 10:40

otn

総合スコア85901

KOO_

2020/06/26 10:44

ありがとうございます。上記を試してみてもループしてしまうようです。他に考えられることはありますでしょうか？

otn

2020/06/26 11:00

> f_0が処理本体の関数で、上半分がその中身という仮定は正しいですか？

KOO_

2020/06/26 12:20

はい！ def f_0(url): global datas datas = [] request = urllib.request.Request(url, headers=headers) html = urllib.request.urlopen(request) print(url) soup = BeautifulSoup(html, 'html.parser') next_page_tag = soup.find_all("a",{"class", "****"}) next_page = '' if next_page_tag == []: return "" else: # 次ページがある場合 for page_tag in next_page_tag: next_page = top + page_tag.get('href') このようになっています。

otn

2020/06/26 13:12

ということは、 if next_page_tag == []: が真になってないのでは？このifの前に、 print(next_page_tag ) を入れてみましょう。

行動規範の内容に同意します

あなたの回答