回答率: 85.35%

質問するログイン新規登録

トップに関する質問 URL内のURLを「次へ」の分だけ取得したい

編集履歴

質問編集履歴

1

コーディングの変更

2021/11/03 07:36

投稿

スコア3

test CHANGED Viewed

	@@ -1 +1 @@
1	- URL内のURLを「次へ」の分だけ~~スクレイピング~~
1	+ URL内のURLを「次へ」の分だけ取得したい

test CHANGED Viewed

@@ -4,56 +4,44 @@
 取得したURL内にジャンル毎のURLがあり全てを取得したい。
-（ジャンル毎のURL内に「次へ」ボタンがある場合全てのページ分のみ）
+（ジャンル毎のURL内に「次へ」ボタンがある場合全てのページ分）
 ```python
-コード
+#ジャンル毎のURLは取得済みでリストに入っています。
-detail_urls_lists = []
+url_list = []
-for i in range(1,10):
+for i in url_list:
-    detail_urls2 = 'https://~' + '?page={}'
+    r = requests.get(i)
-    detail_urls_lists.append(detail_urls2)
+    soup = BeautifulSoup(r.text)
+    get_next = soup.find('li',class_ = ('next'))
+#１ページのみの場合はNoneが表示される為、複数ページある場合は「次ページ」を取得
+    if get_next != None:
-    detail_urls = detail_urls2.format(i)
+        next_pages2 = get_next.select('a[href]')
+        for next_pages in next_pages2:
+            next_page = 'https://----' + n_pages.get('href')
+        print(n_page)
 ```
 ####問題点
-・ジャンル毎のURLが「次へ」が無い場合は１ページ分のみで良いが
+・このコーディングだと複数ページある場合は、２ページ目のみを取得になっている為、全ページにしたい。
-　for文で繰り返している為、１〜９ページ分のURLが完成する。
+####試した事
-上記の場合、２〜９ページのURLを開いても「404 NOT FOUND」の表示がされる。
-（「次へ」が２回あり計３ページの場合、４〜９が「404 NOT FOUND」）
-・とりあえずはrange関数の終止点を１０（９ページ目）にしているが
-　１０ページ以上「次へ」がある場合にスクレイピングされない。
-上記の場合、終止点を1000など「次へ」ボタンが無いであろう数まで設定
-しておけば解決するが数ページしかない場合PCが重くなる
-####解決したい方法
-・range関数の終止点をとりあえず1000などにしてif文で「404 NOT FOUND」の場合は
-リストに追加しないようにする。
-・range関数の終止点を「404 NOT FOUND」になる前、あるいはURLがある分だけの表記にしたい。
+・ifの箇所をwhile文に変更した。←１ページ目の「次へ」から２ページ目を取得。２ページ目の「次へ」から３ページ目を取得。を繰り返して欲しいのに、１ページ目の「次へ」から２ページ目を取得を無限ループしてしまう。