質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

3回答

859閲覧

スクレイピングで取得した複数のURLをリストに入れるには

dd_

総合スコア111

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2021/07/30 15:27

編集2021/07/30 15:29

python

1from bs4 import BeautifulSoup 2import requests 3 4url = ""  #スクレイピングしたいURL 5r = requests.get(url) 6soup = BeautifulSoup(r.text,'html.parser') 7wrap = soup.find_all(class_="wrap") #取得したいURLのクラスがwrapでした 8 9for a in wrap: 10 print(a["href"])

こちらこコードでページ内のURLを
取得することができましたが

リストに入れたいという事で

python

1from bs4 import BeautifulSoup 2import requests 3 4url = ""  #スクレイピングしたいURL 5 6title_urls_list = [] 7 8for url in urls: 9 r = requests.get(url) 10 soup = BeautifulSoup(r.text,'html.parser') 11 wrap = soup.find_all(class_="wrap") #取得したいURLのクラスがwrapでした 12 13for a in wrap: 14 title_urls_list.extend([x.text for x in a["href"]]) 15 16#こちらを試してみましたがAttributeError: 'str' object has no attribute 'text'と出ます。

title_urls_list = []
このりすとに入れて
print(title_urls_list)

で取得したURL達を表示させるには
どういったコード変更すべきでしょうか?
教えていただけると幸いです。
よろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答3

0

ベストアンサー

a["href"]はすでにstr型となっていてxもstr型となりますのでtext属性は存在ぜずエラーが起きているようです。

for a in wrap: title_urls_list.extend([x.text for x in a["href"]])

三項演算子でやりたいのであれは以下のようにするのがいいのかなと思いました。

from bs4 import BeautifulSoup import requests url = ""  #スクレイピングしたいURL title_urls_list = [] for url in urls: r = requests.get(url) soup = BeautifulSoup(r.text,'html.parser') wrap = soup.find_all(class_="wrap") #取得したいURLのクラスがwrapでした     title_urls_list.extend([a["href"] for a in wrap])

投稿2021/07/30 16:15

編集2021/07/30 16:17
holy_

総合スコア364

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

ワンライナーでまとめたいのであれば、

title_urls_list = [] title_urls_list.append([a['href'] for a in wrap])

ですかね

ちなみに urls は複数ページ分のURLでしょうか?
だとすると

for url in urls:

wrap上書きされてるので、最終的に最後のwrapしか取れないよな気がします。

wrap = [] wrap.extend(soup.find_all('a'))

で一つのリストにまとめるか、もしくは辞書でページ単位にまとめた方がいいと思います。

まとめなくても

for url in urls: r = requests.get(url) soup = BeautifulSoup(r.text,'html.parser') wrap.extend([a['href'] for a in soup.find_all('a')])

でできそうですね。

投稿2021/07/30 16:30

編集2021/07/30 16:36
itokoishi

総合スコア63

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

print(a["href"])

が出来て、これが何故出来ないのか分かりませんが、

Python

1for a in wrap: 2 title_urls_list.extend([a["href"]])

ですね。
普通は、

Python

1for a in wrap: 2 title_urls_list.append(a["href"])

でしょうか。

また、このfor部分は、for url in urls:のループの中に入れるべきでは?
ループの終わったあとに置くと、最後のwrapしか処理されません。

投稿2021/07/30 15:40

otn

総合スコア84499

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問