リストにURLがあるのに、URLをrequests.get(url)に渡してもエラーが出てしまう。

ある５ページの中にある
複数のURLを取得し
その複数のURLの中にある
特定のテキストを取得したいと思い
下の様なコードを書きました

python
1from bs4 import BeautifulSoup
2import requests
3
4urls = []
5for i in range(1, 6):
6  urls.append('https://xxx.jq/page-{}'.format(i))
7#スクレイピングしたいURLのページに番号を振り当てURLを作成。
8#urlsの中身を実行すると['https://xxx.jq/page-1', 'https://xxx.jq/page-2', 'https://xxx.jq/page-3', 'https://xxx.jq/page-4', 'https://xxx.jq/page-5']
9
10#----------------------------------
11# ページ内の複数のURLの取得
12
13title_urls_list  = []
14
15for url in urls:
16  r = requests.get(url)
17  soup = BeautifulSoup(r.text,'html.parser')
18  wrap = soup.find_all(class_="wrap") #取得したいURLのクラスがwrapでした
19  title_urls_list.extend([a["href"] for a in wrap]) 
20
21print(title_urls_list)
22#実行するとURLがリストで表示されました。
23# --------------------------------
24#取得したURLの中にある特定のテキストを取得
25genre_list = []
26
27for url in title_urls_list:
28  r = requests.get(url)    #ここでエラーが出ます！！！
29  soup = BeautifulSoup(r.text,'html.parser')
30  get_genre = soup.find(class_="info-box-meta-genre-list")
31  gener_list = get_genre.find_all("a")  #aタグの中身のテキストを取得
32
33print(genre_list)

エラーの内容ですが、下のように出ます。

MissingSchema: Invalid URL '一番最初に取得したURL': No schema supplied. Perhaps you meant 一番最初に取得したURL?

print(title_urls_list)このコードでURLが
取得できているのが確認できるのに
r = requests.get(url)でエラーが出てしまいます。

上で二回同じコードを使ってるので
変数が原因かと思い　ｒをｖとかにしてもダメでした。

この場合どういったコードが良いでしょうか？
教えていただけると幸いです。
よろしくお願いいたします。

行動規範の内容に同意します

回答1件

ベストアンサー

a["href"]で取得したのが、相対URLだったのでは？
そうなら、urlparse.urljoin等で絶対URLに編集し直してからです。

投稿2021/07/31 10:46

otn

総合スコア85901

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

リストにURLがあるのに、URLをrequests.get(url)に渡してもエラーが出てしまう。

関連した質問