urlのリンク先をダウンロード

『pythonによるスクレイピング&機械学習』という本の写経をしています。
コードを一通り写経して実行したのですが、ダウンロード失敗に終わってしまい、
エラーメッセージも出ないので、解決方法がわかりません。
ご教授をお願いしたいです。

目的： http://docs.python.jp/3.5/library/先のドキュメントをダウンロードしたい

python
1from bs4 import BeautifulSoup
2import requests 
3from urllib.parse import urlparse
4from os import makedirs
5import os.path,time,re
6
7proc_files={}
8
9def enum_links(html,base):
10    soup=BeautifulSoup(html,"html.parser")
11    links=soup.select("link[rel='stylesheet']")
12    links+=soup.select("a[href]")
13    result=[]
14    
15    for a in links:
16        href=a.attrs['href']
17        url=urljoin(base,href)
18        result.append(url)
19    return result
20
21def download_file(url):
22    o=urlparse(url)
23    savepath="./"+o.netloc+o.path
24    if re.search(r"/$",savepath):
25        savepath+="index.html"
26    savedir=os.path.dirname(savepath)
27    
28    if os.path.exists(savepath):return savepath
29    
30    if not os.path.exists(savedir):
31        print("mkdir=",savedir)
32        makedirs(savedir)
33        
34    try:
35        print("download=",url)
36        urlretrieve(url,savepath)
37        time.sleep(1)
38        return savepath
39    except:
40        print("ダウンロード失敗:",url)
41        return None
42
43def analize_html(url,root_url):
44    savepath=download_file(url)
45    if savepath is None:return
46    if savepath in proc_files:return
47    proc_files[savepath]=True
48    print("analize_html",url)
49    
50    html=open(savepath,"r",encoding="utf-8").read()
51    links=enum_links(html,url)
52    
53    for link_url in links:
54        
55        if link_url.find(root_url)!=0:
56            if not re.search(r".css$",link_url):continue
57                
58        if re.search(r".(html|htm)$",link_url):
59            analize_html(link_url,root_url)
60            continue
61            
62        download_file(link_url)
63
64if __name__ == "__main__":
65    
66    url="http://docs.python.jp/3.5/library/"
67    analize_html(url,url)

実行結果

download= http://docs.python.jp/3.5/library/
ダウンロード失敗: http://docs.python.jp/3.5/library/

行動規範の内容に同意します

回答3件

python
1    except:
2        print("ダウンロード失敗:",url)
3        raise  # <- コレ
4        return None
5

「コレ」を追加するとエラーが表示されるようになります。

投稿2018/12/15 01:01

YouheiSakurai

総合スコア6142

maron1220

2018/12/15 14:20

ありがとうございます！おかげでエラー部分がわかりました！！

行動規範の内容に同意します

読者サポート | Pythonによるスクレイピング＆機械学習開発テクニックBeautifulSoup、scikit-learn、TensorFlowを使ってみよう | ソシム
にてサンプルコードがダウンロードできるようなので見比べてはいかがでしょうか？

投稿2018/12/15 00:15

can110

総合スコア38256

maron1220

2018/12/15 14:23

ありがとうございます！確認します！

行動規範の内容に同意します

ベストアンサー

2・3行目が違います

python
1from bs4 import BeautifulSoup
2from urllib.request import * #ここ
3from urllib.parse import * #ここ

投稿2018/12/15 07:06

barobaro

総合スコア1286

maron1220

2018/12/15 14:22

ありがとうございます！助かりました！！

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.49%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

urlのリンク先をダウンロード

関連した質問