Python: requests.get()で得たPDFをローカルに保存しようとしても空PDFになってしまいます

Python 3.4 です。requests.get()に、PDFファイルにリンクしているurlを渡し、それをローカルに保存しようとしても空PDFになってしまいます。

なお、PDFの中身は日本語で、文字とテーブルが混ざったような数ページ物です。以下にコードを示しており、具体的なurlも載せています（これをブラウザに入れるとPDFは正しく表示されるのですが・・）、もし解決方法や原因が分かる方がいらしたらぜひご教示ください。なお、環境はWindows10です。よろしくおねがいします。

###該当のソースコード

# coding: utf-8

import requests
import json
import os
import numpy as np
import pandas as pd
import datetime as dt

path = "C:/Users/_Data/out.pdf"
url = 'https://webapi.yanoshin.jp/rde.php?https%3A%2F%2Fdisclosure.edinet-fsa.go.jp%2FE01EW%2Fdownload%3Fuji.verb%3DW0EZA104CXP002002BLogic%26uji.bean%3Dee.bean.parent.EECommonSearchBean%26s%3DS100AYP8'

req = requests.get(url)
myfile = open(path, "wb")
myfile.write(req.content)
pdf = open(path, "rb")

###PDFを開こうとするとAdobe Acrobat上で表示されるエラーメッセージ

"Adobe Acrobat Reader DC could not open 'out.pdf' because it is either not a supported file type or because the file has been damaged (for example, it was sent as an email attachment and wasn't correctly decoded)"

###すでに試したこと
・ファイル作成時に"wb"でなく"w"でも一応やってみましたが、ワークせず
・一応、import urllib で urllib.request.urlopen() も試しましたがワークせず

行動規範の内容に同意します

回答1件

ベストアンサー

PDF取得に必要な本来のURLは、?以降の

https%3A%2F%2Fdisclosure.edinet-fsa.go.jp%2FE01EW%2Fdownload%3Fuji.verb%3DW0EZA104CXP002002BLogic%26uji.bean%3Dee.bean.parent.EECommonSearchBean%26s%3DS100AYP8

ではないでしょうか。少し工夫が必要でしたが、requestsを使ってPDFを取得できました。

どうやって質問のURLを取得したかはわかりませんが、URLはしっかり確認しましょう。

投稿2017/08/15 02:18

yukkeorg

総合スコア985

yakobu

2017/08/15 03:04

早速ご回答いただき、大変助かります！デコードしたうえで、ご指摘の部分をURLから切り出してやってみたら、今度は SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:600) となってしまいました。まったく違う類のエラーなので、少しいろいろトライしてみてエラーシューティングしてみようと思いますが、もしこのエラーの解決方法についてもご示唆あれば、ぜひ教えていただければと思います。有難うございます。

yakobu

2017/08/15 03:25

たびたびすみません、再び質問者です。上記のSSLErrorの問題も、get()のverify引数をFalseにすることで解決され、無事PDFが取得・閲覧できました。いただいたアンサーをベストアンサーとさせていただきます！どうもありがとうございました。

行動規範の内容に同意します