回答編集履歴

表現を修正

2020/09/12 16:41

投稿

Daregada

スコア11992

answer CHANGED Viewed

@@ -45,7 +45,7 @@
 print("すべての処理が正常に完了しました。")
 ```
 追加分:
-- PDFファイルの内容により、`PyPDF2.PdfFileReader()`で読み込むさいに「OSError: [Errno 22] Invalid argument」になるものがある。公式のGitHubの以下のページで議論されている(未解決)。
+- PDFファイルの内容により、`PyPDF2.PdfFileReader()`で読み込むさいに「OSError: [Errno 22] Invalid argument」になるものがある。PyPDF2公式のGitHubの以下のページで議論されている(未解決)。
 [A certain PDF File triggers OSError: [Errno 22] Invalid argument · Issue #530 · mstamy2/PyPDF2](https://github.com/mstamy2/PyPDF2/issues/530)

PDFファイル自体に問題があるという補足を追加

2020/09/12 16:41

投稿

Daregada

スコア11992

answer CHANGED Viewed

@@ -43,4 +43,33 @@
 odd_object.close()
 even_object.close()
 print("すべての処理が正常に完了しました。")
-```
+```
+追加分:
+- PDFファイルの内容により、`PyPDF2.PdfFileReader()`で読み込むさいに「OSError: [Errno 22] Invalid argument」になるものがある。公式のGitHubの以下のページで議論されている(未解決)。
+[A certain PDF File triggers OSError: [Errno 22] Invalid argument · Issue #530 · mstamy2/PyPDF2](https://github.com/mstamy2/PyPDF2/issues/530)
+先頭の発言の「This file」のリンクからダウンロードした`NTB - LOI.pdf`(印刷された書類をスキャンしたっぽい内容)を`PyPDF2.PdfFileReader()`で読み込むと、確かに「OSError(以下略)」が発生する。質問者がスキャンで作成したPDFファイルも、これと同じ問題が起きている可能性が高い。なお、こちらで検証に使っていたPDFファイルは、印刷した文書をスキャンしたものではなく、Wordで作成した文書を直接PC上でPDF化したものだった。
+とりあえずの対策として、上記のスレッドでは、GhostScript(gs)を使ってPDFファイルを書き換えるためのコマンドラインが提案されている。
+> gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/printer -dNOPAUSE -dQUIET -dBATCH -sOutputFile="出力ファイル名" "入力ファイル名"
+あいにくWindowsにGhostScriptを入れていなかったので、仮想Linuxマシンで上記のコマンドラインで変換を行なったところ、
+```terminal
+$ gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/printer -dNOPAUSE -dQUIET -dBATCH -sOutputFile="output.pdf" "input.pdf"
+   **** Error:  An error occurred while reading an XREF table.
+   **** The file has been damaged.  This may have been caused
+   **** by a problem while converting or transfering the file.
+   **** Ghostscript will attempt to recover the data.
+   **** However, the output may be incorrect.
+```
+とエラーを吐いたものの、変換後のPDFファイルは問題なく`PyPDF2.PdfFileReader()`で読み込むことができた。なお、PDFビューアーアプリでは、どちらのPDFファイルも表示できている。
+ということで、
+0. 現在使っているPDFファイルではなく、Wordなどの文書を直接PDF化したものを用意して、コードの動作確認を行なう。
+0. 最終目的であるスキャンされたPDFファイルのマージを行なうために、GhostScriptのダウンロードとインストールを行なう。
+0. gsコマンドが利用可能になったら、上記のコマンドラインで変換を試み、生成されたPDFファイルを使って(動作確認済みの)コードでマージを行なう。
+という手順が必要でしょう。

余分なPDFファイルがあっても動作するよう修正

2020/09/12 16:40

投稿

Daregada

スコア11992

answer CHANGED Viewed

@@ -3,28 +3,29 @@
 - `pdfwriter`に書き込みを行なう`addPage()`は代入ではなくメソッド呼び出しなので、それに見合う形にする。
 - 偶数ページのページ数は、奇数ページのページ数と同じか、1ページ少なくなるか(1,3,5ページと2,4ページなど)のどちらかである。1ページ少なくなる場合、`getPage()`しないように`even_pdf.numPages`を使ったif文で処理する。
-残った問題点は、
+~~残った問題点は、~~
-- カレントディレクトリに存在するPDFファイルが2個以外のときの処理。たとえば、1個だけある場合や、3個以上ある場合にどうするか。現在は`ps.listdir()`の末尾2個だけが処理される。
+- ~~カレントディレクトリに存在するPDFファイルが2個以外のときの処理。たとえば、1個だけある場合や、3個以上ある場合にどうするか。現在は`os.listdir()`の末尾2個だけが処理される。~~
+globを使って「even_*.pdf」と「odd_*.pdf」をそれぞれ別個にリストに読み込み、それぞれのリストの要素が1のときだけ続く処理を行なうように変更した。これで、他のPDFファイル(以前作成したmerged.pdfなど)が存在しても動作する。
 ```Python
+import glob
+import sys
 import PyPDF2
-import os
-pdflist = []
-for filename in os.listdir(os.getcwd()):
+even_list = glob.glob("even_*.pdf")
-    if filename.endswith(r".pdf"):
+odd_list = glob.glob("odd_*.pdf")
-        pdflist.append(filename)
+if len(even_list) != 1 or len(odd_list) != 1:
+    print("1組のPDFファイル(even_*.pdf, odd_*pdf)になっていません")
+    sys.exit(1)
-pdflist.reverse()
-print(pdflist)
-odd_file_name = os.getcwd() + "\" + pdflist[0]
+odd_file_name = odd_list[0]
-print(odd_file_name)
+print("odd file: " + odd_file_name)
 odd_object = open(odd_file_name, "rb")
 odd_pdf = PyPDF2.PdfFileReader(odd_object)
-even_file_name = os.getcwd() + "\" + pdflist[1]
+even_file_name = even_list[0]
-print(even_file_name)
+print("even file: " + even_file_name)
 even_object = open(even_file_name, "rb")
 even_pdf = PyPDF2.PdfFileReader(even_object)
@@ -39,5 +40,7 @@
 pdfoutput = open(r"merged.pdf", "wb")
 pdfwriter.write(pdfoutput)
 pdfoutput.close()
+odd_object.close()
+even_object.close()
 print("すべての処理が正常に完了しました。")
 ```

補足を追加

2020/09/12 15:29

投稿

Daregada

スコア11992

answer CHANGED Viewed

@@ -1,3 +1,11 @@
+- 質問へのコメントでも指摘されているように、`odd_object`と`even_object`のモードは`"rb"にしないと読み込めません。
+- forループで`maxpagenum`という変数が突然出てくる。(偶数ページと奇数ページを比較して、より長くなる可能性がある)`odd_pdf.numPages`に代える。
+- `pdfwriter`に書き込みを行なう`addPage()`は代入ではなくメソッド呼び出しなので、それに見合う形にする。
+- 偶数ページのページ数は、奇数ページのページ数と同じか、1ページ少なくなるか(1,3,5ページと2,4ページなど)のどちらかである。1ページ少なくなる場合、`getPage()`しないように`even_pdf.numPages`を使ったif文で処理する。
+残った問題点は、
+- カレントディレクトリに存在するPDFファイルが2個以外のときの処理。たとえば、1個だけある場合や、3個以上ある場合にどうするか。現在は`ps.listdir()`の末尾2個だけが処理される。
 ```Python
 import PyPDF2
 import os