実行環境は Google Colaboratory です。
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
3108個あるページからデータを取り出したいと思い
こちらのサイトを参照してコーディングしてみました。
https://kino-code.com/python_automation_web_scraping03/
python
1from bs4 import BeautifulSoup 2import requests 3import pandas as pd 4import time 5 6url = "#取り出したいページのURL" 7 8r = requests.get(url) 9time.sleep(3) 10 11soup = BeautifulSoup(r.text,'html.parser') 12page_na = soup.find(class_="mod-paging-num") 13#ページング機能はHTMLのクラス mod-paging-num というものでした。 14 15page_num = page_na.find_all(class_="mod-paging-num-item") 16#その中のクラス mod-paging-num-item にページ番号が割り振られているのを確認しました。
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
スクレイピングしたいサイトの
最初にあるページングの部分が下の画像のようになっています。
11~3107についてのコードは
最初のページの検証から見れるコードにはありませんでした。
この場合すべてのページのデータを取得することは難しいでしょうか?
もし可能でしたら
やり方または参考サイトがあれば
教えていただけますでしょうか?
よろしくお願いいたします。
回答3件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。