質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.49%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

URL

URL(ユニフォームリソースロケータ)とは、インターネット上のリソース(Webページや電子メールの宛先等)を特定するための形式的な記号の並びの事を言う。

Q&A

解決済

2回答

7289閲覧

Python3、urllib.requestでどうしてもURLErrorになります。

Kxxx

総合スコア8

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

URL

URL(ユニフォームリソースロケータ)とは、インターネット上のリソース(Webページや電子メールの宛先等)を特定するための形式的な記号の並びの事を言う。

0グッド

0クリップ

投稿2016/08/19 06:00

###前提・実現したいこと
Python3でurllib.requestを使って指定したURLからHTML取得
したいです。一度urllib.requestで取得したHTMLでスクレイピングをし、そこで得られたリンク先をurllib.requestを使って取得しようとしています。どうかご回答よろしくお願いします。
###発生している問題・

response = urllib.request.urlopen(url)という形でHTMLを取得しようとしています。 url='https://~~'と直接urlを打ち込んだ場合はHTMLを取得することができます。 しかし、スクレピングして得られたURLを再度response = urllib.request.urlopen(URL)とするとエラーとなりurllib.error.URLError: <urlopen error unknown url type: a href="https>というメッセージが表示されてしまいます。

###該当のソースコード

Python3.5

1#coding: utf-8 2import urllib.request 3from bs4 import BeautifulSoup 4 5url = "https://gunosy.com/" 6response = urllib.request.urlopen(url) 7html = response.read().decode("utf-8") 8soup = BeautifulSoup(html, "html.parser") 9 10# for i in range(1,9): 11for i in range(1,2): 12 categories_link = soup.find(class_='nav_color_'+str(i)).find('a') 13 print(categories_link.attrs['href']) 14 url = str(categories_link) 15 #categories_linkにhttps://gunosy.com/categories/1というurlが代入されています。 16 # url = 'https://gunosy.com/categories/1'とすれば正常に動きます。 17 print(url) 18 response = urllib.request.urlopen(url) 19 html = response.read().decode("utf-8") 20 soup = BeautifulSoup(html, "html.parser") 21 article_links = soup.find_all(class_='list_title') 22 for article_link in article_links: 23 print(article_link.find('a').attrs['href']) 24 25 26 27 28

###試したこと
categories_linkそのままではurlが文字列として認識されないようなのでstr()を使って文字列に直してみました。それでも動作しませんでした。

###補足情報(言語/FW/ツール等のバージョンなど)
より詳細な情報

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

単なるミスです。

python

1print(categories_link.attrs['href']) 2url = str(categories_link)

となっていますが、
categories_link.attrs['href']をurlに代入するべきです。

python

1print(categories_link.attrs['href']) 2url = categories_link.attrs['href']

これで動きましたよ。

投稿2016/08/19 06:19

NarugaL_ove

総合スコア108

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Kxxx

2016/08/19 06:21

回答ありがとうございます。本当に単純なミスでした。
guest

0

自己解決

解決しました。url = str(categories_link.attrs['href'])とすれば良かったのですね。

投稿2016/08/19 06:12

Kxxx

総合スコア8

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.49%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問