###前提・実現したいこと
Python3でurllib.requestを使って指定したURLからHTML取得
したいです。一度urllib.requestで取得したHTMLでスクレイピングをし、そこで得られたリンク先をurllib.requestを使って取得しようとしています。どうかご回答よろしくお願いします。
###発生している問題・
response = urllib.request.urlopen(url)という形でHTMLを取得しようとしています。 url='https://~~'と直接urlを打ち込んだ場合はHTMLを取得することができます。 しかし、スクレピングして得られたURLを再度response = urllib.request.urlopen(URL)とするとエラーとなりurllib.error.URLError: <urlopen error unknown url type: a href="https>というメッセージが表示されてしまいます。
###該当のソースコード
Python3.5
1#coding: utf-8 2import urllib.request 3from bs4 import BeautifulSoup 4 5url = "https://gunosy.com/" 6response = urllib.request.urlopen(url) 7html = response.read().decode("utf-8") 8soup = BeautifulSoup(html, "html.parser") 9 10# for i in range(1,9): 11for i in range(1,2): 12 categories_link = soup.find(class_='nav_color_'+str(i)).find('a') 13 print(categories_link.attrs['href']) 14 url = str(categories_link) 15 #categories_linkにhttps://gunosy.com/categories/1というurlが代入されています。 16 # url = 'https://gunosy.com/categories/1'とすれば正常に動きます。 17 print(url) 18 response = urllib.request.urlopen(url) 19 html = response.read().decode("utf-8") 20 soup = BeautifulSoup(html, "html.parser") 21 article_links = soup.find_all(class_='list_title') 22 for article_link in article_links: 23 print(article_link.find('a').attrs['href']) 24 25 26 27 28
###試したこと
categories_linkそのままではurlが文字列として認識されないようなのでstr()を使って文字列に直してみました。それでも動作しませんでした。
###補足情報(言語/FW/ツール等のバージョンなど)
より詳細な情報
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2016/08/19 06:21