pythonのスクレイピング、requestsモジュールについての質問です。

url="https://rtrp.jp/locations/332/categories/291/?order=retrip_score&page={}"

for i in range(1,6):
  target_url=url.format(i)
  print(target_url)

  res=requests.get(target_url)
  soup=BeautifulSoup(res.text,'html.parser')

1ページから5ページの内容を全てスクレイピングするにあたって
print(target_url)の時点で1～5ページのURLは取得できるのですが、
requestsモジュールでは5ページ目の情報しか取得できません。
全頁の取得、解析方法をご教示願います。

maisumakun

2022/08/30 02:09

インデントが崩れているので、どこまでループするコードなのか判別がつかないです。

TakaiY

2022/08/30 02:20

質問を編集して、コードの部分をコードの挿入(</>)ででてくる書式の中に入れてください。

TAKESHI

2022/08/30 02:21

url="https://rtrp.jp/locations/332/categories/291/?order=retrip_score&page={}" for i in range(1,6): target_url=url.format(i) print(target_url) res=requests.get(target_url) soup=BeautifulSoup(res.text,'html.parser') 失礼いたしました。最後のｂｓ４の解析までです。

TakaiY

2022/08/30 02:26

ここに書いてもだめです。質問を編集して、コードの部分をコードの挿入(</>)ででてくる書式の中に入れてください。やりかたがわからなければ、使いかたのドキュメントを確認ください。

TAKESHI

2022/08/30 02:33

修正いたしました。よろしくお願いします.

TakaiY

2022/08/30 02:40

提示されたコードには問題なさそうですが、「5ページ目の情報しか取得できません」はどのように確認されましたか？提示のコードは取得しただけで、どこにも出力していないので、このループを回しただけでは何も起きませんから。

TAKESHI

2022/08/30 02:47

新しく立ち上げたセルで print(target_url) を出力すると5ページ目のURLしか出力されませんでした。同様にres.textを出力してみたところ、5ページ目のものしかないことがわかりました。

maisumakun

2022/08/30 03:44

出力コードはどこへどのように書いたのですか？

1T2R3M4

2022/08/30 04:37

https://qiita.com/takeshi4/questions/a71a02d1c8efb911b99e 以下ご対応ください。 https://teratail.com/help#posted-otherservice

TakaiY

2022/08/30 04:40

解決しているので不要と思いますが、「新しく立ち上げたセルでprint(target_url)」をしても、target_url はループの度に上書きされてしまうので、ループ終了後は最後の値しか持っていないからです。必要なら、ループの中で値を取得/表示しましょう。

行動規範の内容に同意します

回答1件

自己解決

url = "https://rtrp.jp/locations/332/categories/291/?order=retrip_score&page={}"

for i in range(1,6):
    target_url = url.format(i)
    print(target_url)

    res = requests.get(target_url)
    for spot in soup.find_all('h3', class_='spotName'):
        print(spot.text.strip())

上記の通り、記述しました。
タイトルの取得は出来たのですが、全タイトルのURLの取得は可能でしょうか？

投稿2022/08/30 04:01

TAKESHI

総合スコア12

peco_2282

2022/08/30 04:56 編集

コメントはMDが効かないのでgistに上げました。 https://gist.github.com/peco2282/c7e42031eca0897c91150f22f4a9fdc6 以下のように表示されます。 1 店目 name : 麺屋翔みなと site_url: https://rtrp.jp/spots/.../ 2 店目 name : メンショーサンフランシスコ site_url: https://rtrp.jp/spots/.../ 3 店目 name : 太陽のトマト麺withチーズ新宿ミロード店 site_url: https://rtrp.jp/spots/.../

TAKESHI

2022/08/30 05:00

ありがとうございます。大変参考になりました。次回からもう少しドキュメントを読んで質問いたします。ご迷惑をお掛けしました。

peco_2282

2022/08/30 07:33

> 全タイトルのURLの取得は可能でしょうか？ gistに上げたコードだと各店舗の詳細URLが出るようにしたのですがそれでいいんですか？

TAKESHI

2022/08/30 08:42

ありがとうございます。こちらのコードで問題ありません。

行動規範の内容に同意します