BeautifulSoupで指定クラス（同じクラスが複数存在）全てから aタグを全て検索し、URLリストを作成したい。

前提

BeautifulSoupで指定クラス（同じクラスが複数存在）全てから
aタグを全て検索し、URLリストを作成したい。

全くの初心者ですので至らぬ点多々あると思いますが、
手ほどきよろしくお願いいたします。

実現したいこと

複数存在する「class = abc」のaタグを全て検索しURLリストを作成したい。

発生している問題・エラーメッセージ

以下のソースコードの「class = abc」の中のaタグのhref属性だけを取り出したいです。

該当のソースコード

Python
1#以下HTMLから[text2, http://2],[text3, http://3],[text5, http://5],[text6, http://6],…,[text99, http://99],[text100, http://100]の配列を作りたい。
2#textのない http://1 と http://4 とhttp://97 は可能なら除きたい。
3
4
5#HTML>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
6<div class="abc">
7    <a href="http://1"></a>
8        <ul>
9            <li>
10                <a href="**http://2**">**text2**</a>
11            </li>
12            <li>
13                <a href="**http://3**">**text3**</a>
14            </li>
15       </ul>
16</div>
17
18<div class=xyz>
19略
20</div>
21
22<div class="abc">
23    <a href="http://4"></a>
24        <ul>
25            <li>
26                <a href="**http://5**">**text5**</a>
27            </li>
28            <li>
29                <a href="**http://6**">**text6**</a>
30            </li>
31       </ul>
32</div>
33
34<div class=xxxyyyzzz>
35～略～
36</div>
37
38～略～
39
40<div class="abc">
41    <a href="http://98"></a>
42        <ul>
43            <li>
44                <a href="**http://99**">**text99**</a>
45            </li>
46            <li>
47                <a href="**http://100**">**text100**</a>
48            </li>
49       </ul>
50</div>
51
52#HTML終わり>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
53
54

試したこと

Python
1soup = BeautifulSoup(html, "html.parser")
2listbase = soup.find_all(class_="abc")
3
4urllist = []
5for element in listbase:
6    urllist = element.find_all('a')
7
8#とりあえずこのコードでaタグを全てとってみようと思いましたが、最後の1塊しかとれませんでした。
9
10#出力
11[ <a href="http://98"></a>,
12<a href="**http://99**">**text99**</a>,
13<a href="**http://100**">**text100**</a>]
14

補足情報（FW/ツールのバージョンなど）

行動規範の内容に同意します

回答2件

urllist = element.find_all('a')

毎回、変数urllistを上書きしているので、最後に上書きした内容が残ってます。
上書きじゃ無くて、継ぎ足しましょう。

Python
1a = []
2for i in range(5):
3    a = [i]
4print(a)
5
6a = []
7for i in range(5):
8    a.extend([i])
9print(a)
10
11a = []
12for i in range(5):
13    a.append([i])
14print(a)

投稿2022/12/28 05:42

otn

総合スコア84499

ベストアンサー

find_all() ではなく select() を使う場合。

python
1from bs4 import BeautifulSoup
2from pprint import pprint
3
4html = '''
5<div class="abc">
6    <a href="http://1"></a>
7        <ul>
8            <li>
9                <a href="**http://2**">**text2**</a>
10            </li>
11            <li>
12                <a href="**http://3**">**text3**</a>
13            </li>
14       </ul>
15</div>
16
17<div class="abc">
18    <a href="http://4"></a>
19        <ul>
20            <li>
21                <a href="**http://5**">**text5**</a>
22            </li>
23            <li>
24                <a href="**http://6**">**text6**</a>
25            </li>
26       </ul>
27</div>
28
29<div class="abc">
30    <a href="http://98"></a>
31        <ul>
32            <li>
33                <a href="**http://99**">**text99**</a>
34            </li>
35            <li>
36                <a href="**http://100**">**text100**</a>
37            </li>
38       </ul>
39</div>
40'''
41
42soup = BeautifulSoup(html, "html.parser")
43listbase = soup.select('.abc > ul > li > a[href]')
44urllist = [[i.text, i['href']] for i in listbase]
45
46pprint(urllist)
47
48# [['**text2**', '**http://2**'],
49#  ['**text3**', '**http://3**'],
50#  ['**text5**', '**http://5**'],
51#  ['**text6**', '**http://6**'],
52#  ['**text99**', '**http://99**'],
53#  ['**text100**', '**http://100**']]