質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.03%

【PyPDF2】forループrange()関数の第2引数の設定の仕方を教えてください。

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 1,809

84zero

score 46

 前提・実現したいこと

既存のPDFファイルから任意のページを抜き出して、
新しいPDFファイルとして保存するプログラムを作成しています。

 発生している問題・エラーメッセージ

pipのモジュールのPyPDF2において、forループ文を用いるときに、
変数start_page,finish_pageに整数値を渡して

for page_num in range(start_page,finish_page):

と引数に設定したところエラーが発生しました。

PdfReadWarning: Xref table not zero-indexed. ID numbers for objects will be corrected. [pdf.py:1736]
Traceback (most recent call last):
  File "C:/MyPythonScripts/PDF編集プログラム/指定したページのみを抜き出すプログラム改.py", line 23, in <module>
    page_obj = pdf1_reader.getPage(page_num)
  File "C:\Users\hashi\AppData\Local\Programs\Python\Python36-32\lib\site-packages\PyPDF2\pdf.py", line 1176, in getPage
    self._flatten()
  File "C:\Users\hashi\AppData\Local\Programs\Python\Python36-32\lib\site-packages\PyPDF2\pdf.py", line 1505, in _flatten
    catalog = self.trailer["/Root"].getObject()
  File "C:\Users\hashi\AppData\Local\Programs\Python\Python36-32\lib\site-packages\PyPDF2\generic.py", line 516, in __getitem__
    return dict.__getitem__(self, key).getObject()
  File "C:\Users\hashi\AppData\Local\Programs\Python\Python36-32\lib\site-packages\PyPDF2\generic.py", line 178, in getObject
    return self.pdf.getObject(self).getObject()
  File "C:\Users\hashi\AppData\Local\Programs\Python\Python36-32\lib\site-packages\PyPDF2\pdf.py", line 1617, in getObject
    raise utils.PdfReadError("file has not been decrypted")
PyPDF2.utils.PdfReadError: file has not been decrypted

 該当のソースコード

#! python3
# PDFファイルの指定したページを抜き出すプログラム
#『退屈なことはパイソンにやらせよう』の340ページ参考
# file1.pdfをカレントディレクトリに保存しおておくこと

import PyPDF2
print('編集するファイル名を入力してください。例)file1.pdf')
file1 = input()
print('指定したファイルのページを抜き出します。')
print('抜き出す最初のページを入力してください')
start_page = int(input())-1
print('抜き出す最後のページを入力してください')
finish_page = int(input())
print('出力するファイル名を入力してください。例)file2.pdf')
file2 = input()

pdf1_file = open(file1,'rb')#ファイル1を開く
pdf1_reader = PyPDF2.PdfFileReader(pdf1_file)#ファイル1を読み込む
pdf_writer = PyPDF2.PdfFileWriter()#新しい白紙のPDFファイルを作成

#ファイル1の指定したページをコピーして、コピーしたページを白紙のPDFに書き込む
for page_num in range(start_page,finish_page):#←エラーの原因と思われる個所(22行目)
    page_obj = pdf1_reader.getPage(page_num)
    pdf_writer.addPage(page_obj)

pdf_output_file = open(file2,'wb')#出力するファイル2を作成
pdf_writer.write(pdf_output_file)#ファイル2に出力
pdf_output_file.close()#ファイル2を閉じる
pdf1_file.close()#ファイル1を閉じる

 試したこと

22行目の

for page_num in range(start_page,finish_page):

for page_num in range(start_page,pdf1_reader.numPages):

に書き換えたら、指定したページから最後のページまでは抜き出せます。
ただ、その場合も下記のようなよく分からない警告がつきます。

PdfReadWarning: Xref table not zero-indexed. ID numbers for objects will be corrected. [pdf.py:1736]

range()の第2引数の設定が上手くいっていないようです。
第2引数を変数ではなく、数字で入力した場合も同じようなエラーが発生します。

 補足情報(FW/ツールのバージョンなど)

ご回答宜しくお願いします。
できれば、上記警告文の対応策も教えていただければ助かります。
バージョン Python 3.6

解決しました。解決後のプログラムは以下の通りです。

#! python3
# PDFファイルの指定したページを抜き出すプログラム
#『退屈なことはパイソンにやらせよう』の340ページ参考
# file1.pdfをカレントディレクトリに保存しおておくこと

import PyPDF2
print('編集するファイル名を入力してください。例)file1.pdf')
file1 = input()
print('指定したファイルのページを抜き出します。')
print('抜き出す最初のページを入力してください')
start_page = int(input())-1
print('抜き出す最後のページを入力してください')
finish_page = int(input())
print('出力するファイル名を入力してください。例)file2.pdf')
file2 = input()

pdf1_file = open(file1,'rb')#ファイル1を開く
pdf1_reader = PyPDF2.PdfFileReader(pdf1_file)#ファイル1を読み込む
pdf_copy = PyPDF2.PdfFileWriter()#新しい白紙のPDFファイルを作成
pdf_writer = PyPDF2.PdfFileWriter()#新しい白紙のPDFファイルを作成

#ファイル1をコピーして、コピーしたページを白紙のPDFに書き込む
for page_num in range(0,pdf1_reader.numPages):
    page_obj = pdf1_reader.getPage(page_num)
    pdf_copy.addPage(page_obj)

#ファイル1の指定したページをコピーして、コピーしたページを白紙のPDFに書き込む
for page_num in range(start_page,finish_page):
    page_obj = pdf_copy.getPage(page_num)
    pdf_writer.addPage(page_obj)

pdf_output_file = open(file2,'wb')#出力するファイル2を作成
pdf_writer.write(pdf_output_file)#ファイル2に出力
pdf_output_file.close()#ファイル2を閉じる
pdf1_file.close()#ファイル1を閉じる
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+1

一般的なPDFで、適切な範囲を指定したところ正常に動作しました。
終了ページを範囲外を指定するとIndexError: list index out of rangeエラーとなりました。
よってソースは特に問題ないと思います。

ただ、"file has not been decrypted" error #51にあげられているPDFにて、同じエラーが再現しました。

すなわち、元PDFではページの抽出などの編集操作が許可されていないと思われます。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/02/02 19:58 編集

    ありがとうございます!解決しました(^^)
    おっしゃる通りどうやら、元PDFは保護がかかっていて抽出されないだけみたいでした。
    全ページコピーはできたので、プログラム内で一度コピーファイルを作成後、
    そのコピーファイルから抽出するようにすれば、
    保護がかかっているものでも抽出できるようになりました。
    補足情報に変更後のプログラムを追記します。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.03%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる