Python: リスト内の複数URLの更に下層にあるページのスクレイピング

前提・実現したいこと

複数のクリニックのページURLをリストに入れて、
それぞれのクリニックのもっている各プラン詳細ページの情報（プランの料金、プラン名、施術時間など）を取得したい。

リストにいれるURL例：https://clinic.beauty.hotpepper.jp/H000481998/treatment-menus/

各プラン詳細ページ例：
■上記URLの「検査」を押下した先のページ
https://clinic.beauty.hotpepper.jp/H000481998/treatment-menus/52838/?couponId=52838&cstt=1

■上記URLの「オーダーメイドAGA発毛メソセラピー」を押下した先のページ
https://clinic.beauty.hotpepper.jp/H000481998/treatment-menus/52839/?couponId=52839&cstt=2

同様に、プランは全部で9件あるので対象URLは9件

発生している問題・エラーメッセージ

リストに入れた２つのURLそれぞれが持つ
すべてのプラン詳細URLにアクセスして情報（プランの料金、プラン名、施術時間など）を取得することができてない。

おそらくループ処理がうまく行っていないのですが、回避方法がわからず。。

どなたかおわかりの方いましたらお助けいただけますと幸いです。

該当のソースコード

python
1
2from bs4 import BeautifulSoup
3import requests
4import pandas as pd
5import time
6
7links = [
8"https://clinic.beauty.hotpepper.jp/H000481998/treatment-menus/",
9"https://clinic.beauty.hotpepper.jp/H000482096/treatment-menus/",
10]
11
12#linksに入れたURLをrequests→parser
13
14for i in range(len(links)):
15
16    r = requests.get(links[i])
17    time.sleep(3)
18    soup = BeautifulSoup(r.text,'html.parser')
19
20    url_list= soup.find_all("a", class_ = "treatment-menu__link")
21    print(url_list)
22
23    #url_listからhref属性だけを取り出す(この時点でリストに入れた片方の詳細URLしかとれてない？)
24    urls = []
25    for n in range(len(url_list)):
26        try:
27            link_ = url_list[n].get('href')
28            urls.append(link_)
29        except:
30            pass
31
32        #各プランの詳細ページURL生成
33        new_urls = []
34        for i in range(5):
35            url = urls[i]
36            new_url = "https://clinic.beauty.hotpepper.jp"+url
37            print(new_url)
38            new_urls.append(new_url)
39
40            #詳細ページURLのパース
41            for n in range(len(new_urls)):
42                
43                r = requests.get(new_urls[n])
44                time.sleep(3)
45                soup = BeautifulSoup(r.text,'html.parser')
46
47                #ここから各プラン詳細ページの情報取得
48                detail = soup.find(class_ = "l-container")
49
50                plan_name = soup.find(class_ = "menu-summary__treatment-menu-name").text
51                #print(detail)
52                plan_name
53
54
55                
56                #for m in range(len(detail)):
57                    #name = detail[m].find(class_ = "menu-summary__treatment-menu-name").text
58                    #print(name)

補足情報（FW/ツールのバージョンなど）

Google colabを使用

otn

2021/10/17 11:41

> 取得することができてない。エラーメッセージが出るとか、エラーが出ないけど0件だとか、現象を書いてください。

行動規範の内容に同意します

回答1件

ベストアンサー

「#各プランの詳細ページURL生成」の行から下のネストが１段深くなってしまっているようです。
また、「for i in range(5):」でループ回数を固定しているので、参照先のリンク数が 5件未満の場合もエラーになってしまう恐れがあります。

先ず、ループの使い方を見直すと、原因となる箇所の特定にたどり着きやすくなると思います。

python
1修正前：for i in range(len(links)):
2　　↓
3修正後：for link in links:

「リスト内の何番目を処理中か」が必要な場合は enumerate()関数を利用すると良いですが、
今回のケースでは不要なようです。

下記に修正例を示します。参考になれば幸いです。

python
1from bs4 import BeautifulSoup
2import requests
3import pandas as pd
4import time
5
6links = [
7"https://clinic.beauty.hotpepper.jp/H000481998/treatment-menus/",
8"https://clinic.beauty.hotpepper.jp/H000482096/treatment-menus/",
9]
10
11for link in links:
12    print('-----', link)
13    r = requests.get(link)
14    soup = BeautifulSoup(r.text,'html.parser')
15    url_list= soup.find_all("a", class_ = "treatment-menu__link")
16    #print(url_list)
17    time.sleep(3)
18
19    for i, url in enumerate(url_list):
20      if i > 5:
21        break
22      url = url.get('href')
23      new_url = "https://clinic.beauty.hotpepper.jp" + url
24      print(i, 'new_url', new_url)
25      r = requests.get(new_url)
26      soup = BeautifulSoup(r.text,'html.parser')
27
28      detail = soup.find(class_ = "l-container")
29      plan_name = soup.find(class_ = "menu-summary__treatment-menu-name").text
30      print(plan_name)
31      time.sleep(3)