Python3、urllib.requestでどうしてもURLErrorになります。

###前提・実現したいこと
Python3でurllib.requestを使って指定したURLからHTML取得
したいです。一度urllib.requestで取得したHTMLでスクレイピングをし、そこで得られたリンク先をurllib.requestを使って取得しようとしています。どうかご回答よろしくお願いします。
###発生している問題・

response = urllib.request.urlopen(url)という形でHTMLを取得しようとしています。
url='https://~~'と直接urlを打ち込んだ場合はHTMLを取得することができます。
しかし、スクレピングして得られたURLを再度response = urllib.request.urlopen(URL)とするとエラーとなりurllib.error.URLError: <urlopen error unknown url type: a href="https>というメッセージが表示されてしまいます。

###該当のソースコード

Python3.5
1#coding: utf-8
2import urllib.request
3from bs4 import BeautifulSoup
4
5url = "https://gunosy.com/"
6response = urllib.request.urlopen(url)
7html = response.read().decode("utf-8")
8soup = BeautifulSoup(html, "html.parser")
9
10# for i in range(1,9):
11for i in range(1,2):
12	categories_link = soup.find(class_='nav_color_'+str(i)).find('a')
13	print(categories_link.attrs['href'])
14	url = str(categories_link)
15	#categories_linkにhttps://gunosy.com/categories/1というurlが代入されています。
16	# url = 'https://gunosy.com/categories/1'とすれば正常に動きます。	
17	print(url)
18	response = urllib.request.urlopen(url)
19	html = response.read().decode("utf-8")
20	soup = BeautifulSoup(html, "html.parser")
21	article_links = soup.find_all(class_='list_title')
22	for article_link in article_links:
23		print(article_link.find('a').attrs['href'])
24
25
26
27
28

###試したこと
categories_linkそのままではurlが文字列として認識されないようなのでstr()を使って文字列に直してみました。それでも動作しませんでした。

###補足情報(言語/FW/ツール等のバージョンなど)
より詳細な情報

行動規範の内容に同意します

回答2件

単なるミスです。

python
1print(categories_link.attrs['href'])
2url = str(categories_link)

となっていますが、
categories_link.attrs['href']をurlに代入するべきです。

python
1print(categories_link.attrs['href'])
2url = categories_link.attrs['href']

これで動きましたよ。

投稿2016/08/19 06:19

NarugaL_ove

総合スコア108

Kxxx

2016/08/19 06:21

回答ありがとうございます。本当に単純なミスでした。

行動規範の内容に同意します

自己解決

解決しました。url = str(categories_link.attrs['href'])とすれば良かったのですね。

投稿2016/08/19 06:12

Kxxx

総合スコア8

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

Python3、urllib.requestでどうしてもURLErrorになります。

関連した質問