teratail header banner
teratail header banner
質問するログイン新規登録

質問編集履歴

1

2017/09/09 12:34

投稿

kaitokimura
kaitokimura

スコア59

title CHANGED
File without changes
body CHANGED
@@ -12,4 +12,41 @@
12
12
  そのURLで飛ぼうとした結果403エラーが起きました。
13
13
  全く同じURLなのになぜこのようなことがおきるのでしょうか??
14
14
  これはセキュリティの問題でしょうか?
15
- 取得することはできないのでしょうか?
15
+ 取得することはできないのでしょうか?
16
+
17
+ ```lang-Python
18
+ from bs4 import BeautifulSoup
19
+ import urllib
20
+ from urllib import request
21
+ from urllib.request import urlopen
22
+ from urllib.error import URLError, HTTPError
23
+ import os
24
+
25
+ count=0
26
+ html = urllib.request.urlopen("指定ページ")
27
+ soup = BeautifulSoup(html)
28
+ headers={
29
+ "User-Agent": "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:47.0) Gecko/20100101 Firefox/47.0",
30
+ }
31
+ clas=soup.find_all(class_="img-responsive img-private")
32
+ # print(b)
33
+ # print(b.select())
34
+ for x in clas:
35
+ # print(x)
36
+ try:
37
+ url=x.get('src')
38
+ #指定ページの確認
39
+ print('url='+url)
40
+ count=count+1
41
+ print(count)
42
+ req = request.Request(url=url, headers=headers)
43
+ img = request.urlopen(req)
44
+ localfile = open(os.path.basename(url), 'wb')
45
+ localfile.write(img.read())
46
+ img.close()
47
+ localfile.close()
48
+ except HTTPError as e:
49
+ print("HTTPError")
50
+ except URLError as e:
51
+ print("URLError")
52
+ ```