スクレイピングで複数のURLを取得したいです。(質問修正後)

いろいろサイトを参照し
過去の質問者様のページ(下のURL)も参照しました
https://teratail.com/questions/249625

python
1from bs4 import BeautifulSoup
2import requests
3
4url = ""　　#スクレイピングしたいURL
5
6r = requests.get(url)
7soup = BeautifulSoup(r.text,'html.parser')
8get_class = soup.find(class_="aaa")
9get_class2 = get_class.find_all(class="ccc")
10get_link = get_class2.find_all("a")             
11for a in get_link:
12  print(a["href"])
13

下のHTMLで書かれたコードの中の
取得したいURLだけを取得したのですが　
こちらのコードだと
AttributeErrorのエラーが出てしまいます。

HTML
1<div class="aaa">
2  <div class="bbb">
3    <ul>
4      <li>
5        <div class="ccc">
6          <a href="取得したいURL１" class="wrap">
7　　　　　　　　　　　#取得したいURLに規則性はありません
8          </a>
9          <p calss="ddd">
10            <a href="取得したくないURL"></a>
11          </p>
12        </div>
13      </li>
14      <li>
15        <div class="ccc">
16          <a href="取得したいURL２" class="wrap">
17          </a>
18          <p calss="ddd">
19            <a href="取得したくないURL"></a>
20          </p>
21        </div>
22      </li>
23      <li>
24        <div class="ccc">
25          <a href="取得したいURL３" class="wrap">
26          </a>
27          <p calss="ddd">
28            <a href="取得したくないURL"></a>
29          </p>
30        </div>
31      </li>
32.
33.     #繰り返し
34.
35      <li>
36        <div class="ccc">
37          <a href="取得したいURL１０" class="wrap">
38          </a>
39          <p calss="ddd">
40            <a href="取得したくないURL"></a>
41          </p>
42        </div>
43      </li>
44    </ul>
45  </div>
46</div>

取得したいURLだけを取得したい場合は
どういたコードが良いでしょうか？
教えていただけると幸いです。
よろしくお願いいたします。

quickquip

2021/07/30 06:00 編集

質問に書いてあるコードでよいと思います。そのせいで、やりたいことも、何に困っているのかも、どららも書かれていないように見えます。

dd_

2021/07/30 06:01

ご指摘ありがとうございます。再度確認してみます。

dd_

2021/07/30 09:15

何度も申し訳ありません。質問の内容を変更させていただきました。

行動規範の内容に同意します

回答1件

ベストアンサー

例のHTMLであるなら直接aタグのclassを指定した方が良いかと思います。

python
1from bs4 import BeautifulSoup
2import requests
3
4url = ""　　#スクレイピングしたいURL
5r = requests.get(url)
6soup = BeautifulSoup(r.text,'html.parser')
7wrap = soup.find_all(class_="wrap")
8
9         
10for a in wrap:
11  print(a["href"])

あとAttributeErrorのエラーの原因ですが

get_class2 = get_class.find_all(class_="ccc")のget_class2はResultSetというオブジェクトでありfind_allの関数がないのでエラーが起きてます。
ResultSetはリストのようにあつかえるので
get_link = get_class2[0].find_all("a")とかして要素を取り出してからfind_allを行うべきです。

投稿2021/07/30 10:05