pythonのBeautifulSoupでhtmlの<a>タグから絶対URLだけを抽出する方法は有りますか？

pythonのBeautifulSoupを利用し、特定のwebページ内のリンクのURLを全て表示したいのですが、相対パスを使っているwebページだと、相対パスまで表示されてしまいます。

コード

Python
1from urllib import request
2from bs4 import BeautifulSoup
3
4url=request.urlopen("調べたいURL")
5soup = BeautifulSoup(url,"html.parser")
6for i in soup.find_all("a"):
7    print(i.get("href"))
8

実行例
http://hogehoge~
/hoge1/hoge2/hoge3
http://hogehoge~

htmlの<a>の<href>要素の絶対パスだけを抽出する方法ってありますか？
文字列メソッドのfindを使って力技で解決する方法も考えたんですがもっとシンプルなやり方はないですかね？

Python
1for i in soup.find_all("a"):
2    if str(i).find("http")>0:
3        print(i.get("href"))

行動規範の内容に同意します

回答1件

ベストアンサー

Pythonのurllibライブラリに用意されているurljoin関数を使うと簡単に実現できると思います

http://stackoverflow.com/questions/17972496/using-beautiful-soup-to-get-the-full-url-in-source-code

python
1from urllib import request
2from bs4 import BeautifulSoup
3from urllib.parse import urljoin
4
5base_url = "調べたいURL"
6html = request.urlopen(base_url)
7soup = BeautifulSoup(html,"html.parser")
8for i in soup.find_all("a"):
9    print(urljoin(base_url, i.get("href")))