スクレイピングで取得した複数のURLをリストに入れるには

python
1from bs4 import BeautifulSoup
2import requests
3
4url = ""　　#スクレイピングしたいURL
5r = requests.get(url)
6soup = BeautifulSoup(r.text,'html.parser')
7wrap = soup.find_all(class_="wrap")　#取得したいURLのクラスがwrapでした
8
9for a in wrap:
10  print(a["href"])

こちらこコードでページ内のURLを
取得することができましたが

リストに入れたいという事で

python
1from bs4 import BeautifulSoup
2import requests
3
4url = ""　　#スクレイピングしたいURL
5
6title_urls_list  = []
7
8for url  in urls:
9  r = requests.get(url)
10  soup = BeautifulSoup(r.text,'html.parser')
11  wrap = soup.find_all(class_="wrap")　#取得したいURLのクラスがwrapでした
12
13for a in wrap:
14  title_urls_list.extend([x.text for x in a["href"]]) 
15
16#こちらを試してみましたがAttributeError: 'str' object has no attribute 'text'と出ます。

title_urls_list = []
このりすとに入れて
print(title_urls_list)

で取得したURL達を表示させるには
どういったコード変更すべきでしょうか？
教えていただけると幸いです。
よろしくお願いいたします。

行動規範の内容に同意します

回答3件

ベストアンサー

a["href"]はすでにstr型となっていてxもstr型となりますのでtext属性は存在ぜずエラーが起きているようです。

for a in wrap:
  title_urls_list.extend([x.text for x in a["href"]])

三項演算子でやりたいのであれは以下のようにするのがいいのかなと思いました。

from bs4 import BeautifulSoup
import requests

url = ""　　#スクレイピングしたいURL

title_urls_list  = []

for url  in urls:
  r = requests.get(url)
  soup = BeautifulSoup(r.text,'html.parser')
  wrap = soup.find_all(class_="wrap")　#取得したいURLのクラスがwrapでした
　　　　title_urls_list.extend([a["href"] for a in wrap])

投稿2021/07/30 16:15

編集2021/07/30 16:17

__horito

総合スコア364

ワンライナーでまとめたいのであれば、

title_urls_list = []
title_urls_list.append([a['href'] for a in wrap])

ですかね

ちなみに　urls　は複数ページ分のURLでしょうか？
だとすると

for url  in urls:

でwrap上書きされてるので、最終的に最後のwrapしか取れないよな気がします。

wrap = []
wrap.extend(soup.find_all('a'))

で一つのリストにまとめるか、もしくは辞書でページ単位にまとめた方がいいと思います。

まとめなくても

for url in urls:
    r = requests.get(url)
    soup = BeautifulSoup(r.text,'html.parser')
    wrap.extend([a['href'] for a in soup.find_all('a')])

でできそうですね。

投稿2021/07/30 16:30

編集2021/07/30 16:36

itokoishi

総合スコア63

print(a["href"])

が出来て、これが何故出来ないのか分かりませんが、

Python
1for a in wrap:
2  title_urls_list.extend([a["href"]])

ですね。
普通は、

Python
1for a in wrap:
2  title_urls_list.append(a["href"])

でしょうか。

また、このfor部分は、for url in urls:のループの中に入れるべきでは？
ループの終わったあとに置くと、最後のwrapしか処理されません。

投稿2021/07/30 15:40

otn

総合スコア84499

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

スクレイピングで取得した複数のURLをリストに入れるには

関連した質問