指定した条件に合ったPDFのみWEBからダウンロード（Python）

前提・実現したいこと

特定のWEBページから条件にマッチしたファイルのみ保存したいです。

スクレイピングで下記URL（関西空港HP）から、
http://www.kansai-airports.co.jp/news/2020/

毎月公開される「関西国際空港・大阪国際空港・神戸空港 2020年●月利用状況」のPDFをダウンロード
したいと思いプログラムを作成しましたが、条件設定ができていないため、
現在は上記URLに表示されるPDFすべて（3種）をダウンロードしてしまいます。

「関西国際空港・大阪国際空港・神戸空港 2020年●月利用状況」
（http://www.kansai-airports.co.jp/news/2020/2807/J_TrafficReport_●●●●2020.pdf）
だけをダウンロードするには、URLの文字指定などが必要かと思いますがどのように行うべきでしょうか？

来月以降も"J_TrafficReport_"は含まれることが想定されるため、
例えば、URLに"J_TrafficReport_”が含まれているファイルのみという指定をかけたいと考えています。

一通り調べてみたのですが、解決せず、ご教示いただけますと幸いです。
よろしくお願いいたします。

該当のソースコード

Python
1import requests
2from bs4 import BeautifulSoup
3import urllib.request
4from urllib.parse import urljoin
5import os
6import time
7
8url = "http://www.kansai-airports.co.jp/news/2020/"
9base = "http://www.kansai-airports.co.jp/news/2020/"
10html = requests.get(url)
11soup = BeautifulSoup(html.content, "html.parser")
12
13div = soup.find("div", class_= "contentsType02")
14li = div.find_next("li")
15tags = li.find_all_next("a")
16print(tags)
17
18headers = {"User-Agent": "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:47.0) Gecko/20100101 Firefox/47.0"}
19
20for i in range(len(tags)):
21    filepath = "{}.pdf".format(i)
22    target = tags[i]["href"]
23    if os.path.splitext(target)[1] == '.pdf':
24        #os.path.splitext関数は、pathをbase（拡張子以外の部分）とext（ピリオドを含む拡張子）に分割
25        url_1 = urljoin(base, target)
26        request = urllib.request.Request(url=url_1, headers=headers)
27        with open(filepath, "wb") as f:
28            f.write(urllib.request.urlopen(request).read())

行動規範の内容に同意します

回答3件

beautifulsoupでスクレイピングするときに正規表現が使えます
ファイルが少ないので2019にしています

python
1import re
2from urllib.parse import urljoin
3import pathlib
4
5import requests
6from bs4 import BeautifulSoup
7
8url = "http://www.kansai-airports.co.jp/news/2019/"
9
10headers = {
11    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko",
12}
13
14r = requests.get(url, headers=headers)
15
16r.raise_for_status()
17
18soup = BeautifulSoup(r.content, "html5lib")
19
20for i in soup.find("ul", class_="ul_list04").find_all(
21    "a", text=re.compile("^関西国際空港・大阪国際空港・神戸空港.+月利用状況$"), href=re.compile(".pdf$")
22):
23    link = urljoin(url, i.get("href"))
24
25    pdf = requests.get(link, headers=headers)
26
27    p = pathlib.Path(pathlib.PurePath(link).name)
28
29    with p.open(mode="wb") as f:
30        f.write(pdf.content)

投稿2020/05/03 01:49

barobaro

総合スコア1286

YukiShinagawa

2020/05/06 06:33

1点、質問させてください。 p = pathlib.Path(pathlib.PurePath(link).name) はどういう意味を持っていますでしょうか？ DLしたPDFを指定したフォルダに保存する方法を調べている中で疑問に思いました。

barobaro

2020/05/07 01:38

pathlib https://docs.python.org/ja/3/library/pathlib.html pathlib.PurePath(link).nameはos.path.basename()と同じでファイル名を取得しています

行動規範の内容に同意します

ベストアンサー

Python
1省略
2for i in range(len(tags)):
3    filepath = "{}.pdf".format(i)
4    target = tags[i]["href"]
5    if "J_TrafficReport_" in os.path.splitext(target)[0] and os.path.splitext(target)[1] == '.pdf':
6        #os.path.splitext関数は、pathをbase（拡張子以外の部分）とext（ピリオドを含む拡張子）に分割
7        url_1 = urljoin(base, target)
8        request = urllib.request.Request(url=url_1, headers=headers)
9        with open(filepath, "wb") as f:
10            f.write(urllib.request.urlopen(request).read())

これでどうでしょうか。
in演算子はその文字列が含まれているかを調べることができます。
こちらのサイトが分かりやすいと思います。

任意の文字列を含むか判定: in演算子

文字列の中に任意の文字列が含まれているか判定・確認するにはin演算子を使う。含まれているとTrue、含まれていないとFalseを返す。
大文字小文字は区別される（以降で説明する文字列のメソッドでも同様）。

正規表現を使ってもできますが、モジュールをimportしなければいけないことなど、少し面倒なところがあると思ったので、inを使いました。
正規表現の方が良い場合は、コメントいただければ幸いです。

正規表現の方法（追記１）

Python
1import os
2import re
3省略
4for i in range(len(tags)):
5    filepath = "{}.pdf".format(i)
6    target = tags[i]["href"]
7    if re.match(r'J_TrafficReport_(.+).pdf',os.path.basename(target)):
8        url_1 = urljoin(base, target)
9        request = urllib.request.Request(url=url_1, headers=headers)
10        with open(filepath, "wb") as f:
11            f.write(urllib.request.urlopen(request).read())

参考にさせていただいたサイト

Pythonでパス文字列からファイル名・フォルダ名・拡張子を取得、結合

ファイル名を取得: os.path.basename()

パス文字列からファイル名を取得するにはos.path.basename()を使う。

書きながら覚えよう！Pythonで正規表現を使う方法【初心者向け】
Pythonの正規表現マッチオブジェクトでマッチした文字列や位置を取得

ブール値としての扱い（if文での使い方）

マッチオブジェクトはブール値として判定される場合は常にTrueとして扱われる。

投稿2020/05/02 02:31

編集2020/05/03 00:18

glyzinieh

総合スコア208

YukiShinagawa

2020/05/02 12:31

この度もご回答いただきありがとうございました。無事に目的のPDFのみ抽出できました。もし可能であれば、正規表現パターンもご教示いただきたいです。というのも、昨日質問させていただいた観光庁HPのPDFは https://www.jnto.go.jp/jpn/statistics/data_info_listing/pdf/200415_monthly.pdf と、「20***」「_monthly.pdf」という間がとんだ形で指定をかけたいと考えております。（おそらく他のWEBページでも同様の案件が出てきそうなので。。） import re を行った上で文字を飛ばすところ（上記例でいくと0415）はドットで表現するというところまでは調べたのですが、どうも上手くいかず、、ご教示いただけますと幸いです。

glyzinieh

2020/05/03 00:58

追記しました。

行動規範の内容に同意します

以下のようなコードで、文字列に特定の文字列が含まれているかをチェックできますよ。

python
1if "J_TrafficReport_” in target:

投稿2020/05/02 02:17

編集2020/05/02 02:20

autumn_nsn

総合スコア335

YukiShinagawa

2020/05/02 12:32

早速のご回答ありがとうございました！１つの問題を解決するにも様々な方法があるんですね！勉強させていただきます。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！