WEBからのPDFの保存

前提・実現したいこと

観光庁のWEBページから、毎月公開されるPDFを自動でダウンロードし、フォルダに保存させたいと考えております。

現状はスケジュール機能は実装せず、「指定したURLからPDFをダウンロードしてファイルに保存」ということを
目標にしているのですが、どうも上手くいきません。

具体的には、print(tags)以下が実行されていないようです。

下記コードは
https://teratail.com/questions/197747

を参考にさせていただきました。
（もちろん上記URLに記載のコードの通り貼り付けるとうまくいくのですが、、）

お手数おかけいたしますが、アドバイスいただけると助かります。
ご教示のほどよろしくお願いいたします。

発生している問題・エラーメッセージ

[<a href="/jpn/statistics/data_info_listing/pdf/200415_monthly.pdf" target="_blank.....
とtagがprintされた状態となります。

該当のソースコード

Python
1import requests
2from bs4 import BeautifulSoup
3import urllib.request
4from urllib.parse import urljoin
5import re
6import time
7
8url = "https://www.jnto.go.jp/jpn/statistics/data_info_listing/index.html"
9base = "https://www.jnto.go.jp/"
10html = requests.get(url)
11soup = BeautifulSoup(html.content, "html.parser")
12
13div = soup.find("div", class_= "main_column_middle cf")
14li = div.find_next("li")
15tags = li.find_all_next("a")
16print(tags)
17
18headers = {"User-Agent": "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:47.0) Gecko/20100101 Firefox/47.0"}
19
20for i in range(len(tags)):
21    filepath = "{}.pdf".format(i)
22    target = tags[i]["href"]
23    if re.match(r"pdf", target):
24        url_1 = urljoin(base, target)
25        request = urllib.request.Request(url=url_1, headers=headers)
26        with open(filepath, "wb") as f:
27            f.write(urllib.request.urlopen(request).read())
28
29

行動規範の内容に同意します

回答2件

re.match は

If zero or more characters at the beginning of string match the regular expression pattern, return a corresponding match object.

なので、target (目的の URL) が pdf で始まる場合だけマッチします。で、参考にした質問ではリンク先が pdf/019_00_01.pdf のように pdf/ で始まるためにマッチしますが、今回のリンク先はそうではないためにひとつもマッチしません。

とりあえず target を表示してみれば分かりますが、

a. /jpn/statistics/data_info_listing/pdf/200415_monthly.pdf
b. http://www.jnto.go.jp/jpn/downloads/120420_monthly.pdf

の 2 種類あるので、場合分けが必要でしょうね。

投稿2020/04/30 17:13

hoshi-takanori

総合スコア7901

YukiShinagawa

2020/05/01 07:03

お返事ありがとうございました。import os にすることで解決したものの、仰る通り場合分けができていないせいで、100枚以上ものPDFがダウンロードされてしまうため、場合分けが必要だと感じています。勉強しながらチャレンジしていきたいと思います。ありがとうございます！

hoshi-takanori

2020/05/01 07:22

でしょうね。しかも、ファイル名が単なる連番なので、どのファイルが何なのか訳が分からなくなりそう。

行動規範の内容に同意します

ベストアンサー

tags = li.find_all_next("a")では全てのa要素を取得しリスト型を代入するので、print(tags)ではタグの一覧（リスト）が出力されます。
そのため、for文の中でtarget = tags[i]["href"]をしタグのhref属性（URL）を取得しているのだと思います。

上の方が仰っていた、re.matchに関することですがreではなく、osを使い

Python
1import os
2
3#省略
4
5for i in range(len(tags)):
6    filepath = "{}.pdf".format(i)
7    target = tags[i]["href"]
8    if os.path.splitext(target)[1] == '.pdf':
9        url_1 = urljoin(base, target)
10        request = urllib.request.Request(url=url_1, headers=headers)
11        with open(filepath, "wb") as f:
12            f.write(urllib.request.urlopen(request).read())