Pythonで偶数ページと奇数ページに分かれた2つのPDFをマージしたい

Question

### まえがき
Python初心者です。
オライリージャパン「退屈なことはPythonにやらせよう」
を参考にして組んだプログラムです。

###実現したいこと
両面印刷された、多数の枚数で構成された文書があるとします。
しかし、いちいちスキャンして裏返してスキャンして、次の紙をセットしてスキャンして裏返してスキャンして次の紙...など、面倒でやってられません。
そこで、この文書を、フィーダーを使って表側をすべて連続スキャンし、表文書の表側（1,3,5,...ページ）がスキャンされたPDFを出力します。
次に、同様に裏側（2,4,6,...ページ）がスキャンされたPDFを出力します。
最後の仕上げとして、Pythonを用いて2つのPDFを、ページが1,2,3,...ページと正しく繋がった1つのPDFにマージする、という手法を思いついたと言う次第です。
これなら、両面同時コピーの機能はないがフィーダーがあって、片面を比較的高速に連続コピーやスキャンできるような家庭用の複合機で、大量の紙で構成される文書を素早くスキャンし、素早くPDFにマージできます。

と、いうわけで早速プログラムで組んだのですが、問題が発生しました。

### 発生している問題・エラーメッセージ
ソースコードを書き終わり、デバッグを進めていくうちに、私の力だけでは解読不可能なエラーが発生しました。
内容は、次の通りです。
```
Traceback (most recent call last):
  File "pdf_even_odd_merger.py", line 45, in <module>
    odd_pdf = PyPDF2.PdfFileReader(odd_object)
  File "C:\Users\whpc0\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.8_qbz5n2kfra8p0\LocalCache\local-packages\Python38\site-packages\PyPDF2\pdf.py", line 1084, in __init__
    self.read(stream)
  File "C:\Users\whpc0\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.8_qbz5n2kfra8p0\LocalCache\local-packages\Python38\site-packages\PyPDF2\pdf.py", line 1689, in read
    stream.seek(-1, 2)
OSError: [Errno 22] Invalid argument
```
どうも、Invalid argumentのエラーは、open関数やraw文字列に関連するエラーで、ファイルが見つからないなどのエラーであることは調べて分かりました。
とりあえず何か分かるかなと思って、エラーメッセージに書いてあるPyPDFの中にあるpdf.pyも読んでみましたが、何が何なのやらさっぱり...。
### 該当のソースコード
ちなみにですが、"even"はeven number:偶数、"odd"はodd number:奇数として書いてあります。

```Python
#! Python3
# -*- coding: utf-8 -*-
#pdf_even_odd_merger.py

import PyPDF2, os, sys

pdflist = []
evencounter = 0
oddcounter = 0
for filename in os.listdir(os.getcwd()):
    #このファイルが置かれているディレクトリ内のファイルやフォルダを走査

    if filename.endswith(r".pdf"):
        #ファイルネーム末尾が".pdf"で終わるファイルは、ファイルネームをpdflistに追加する。
        pdflist.append(filename)

    if filename.lower().startswith(r"even_"):
        #ファイル名が"even.pdf"で終わる場合（偶数ページのみがスキャンされているファイルの場合）、evencounterを足していく。
        #大文字の拡張子の可能性も考慮し、lowerメソッドを組んでいる。
        evencounter += 1

    if filename.lower().startswith(r"odd_"):
        #ファイル名が"odd.pdf"で終わる場合（奇数ページのみがスキャンされているファイルの場合）、oddcounterを足していく。
        #大文字の拡張子の可能性も考慮し、lowerメソッドを組んでいる。
        oddcounter += 1

if evencounter != 1 or oddcounter != 1:
    print("エラーが発生しました。")
    print(r"このファイルに置かれているPDFファイルは、'even_~~.pdf'あるいは'odd_~~.pdf'の2つのファイルのみでなくてはなりません。")
    print("プログラムを終了します。")
    sys.exit()

pdflist.reverse()
#pdflistに格納されているファイルが["even_~~.pdf","odd_~~.pdf"]のみであったとして、リスト内をeven,oddからodd,evenの順番にするためにソートする。
#key=str.lowerで、大文字小文字を区別しないようにしている。

pdfwriter = PyPDF2.PdfFileWriter()
#結合したPDFファイルを保持するために、オブジェクトを作成しておく。

#奇数ページファイルの読み込みオブジェクト
odd_file_name = os.getcwd() + "\" + pdflist[0]
print(odd_file_name)
odd_object = open(odd_file_name,"rb")      #pdflist[0]には、oddのファイルがある。
odd_pdf = PyPDF2.PdfFileReader(odd_object)

#偶数ページファイルの読み込みオブジェクト
even_file_name = os.getcwd() + "\" + pdflist[1]
print(even_file_name)
even_object = open(even_file_name,"rb")     #pdflist[1]には、evenのファイルがある。
even_pdf = PyPDF2.PdfFileReader(even_object)

#evenとoddが同じ枚数の紙からスキャンしたオブジェクトなら、ページ数が揃うはず。その検証を行う。
#evenのページ数を取得する。
odd_num_page = odd_pdf.numPages
even_num_page = even_pdf.numPages
superchecker = 0
#57行目のような状況に遭遇した場合の排他処理そするための識別コード：デフォルトは1で、if文に引っかかった場合に1とする。
if odd_num_page != even_num_page:
    print("異なる文書からスキャンた奇数ページファイル、偶数ページファイルを誤って組み合わせないようにするための、安全用プログラムが作動しました。")
    print("同じ文書からスキャンして得られた偶数ページファイルと奇数ページファイルは、同じページ数になるはずです。")
    print("しかし、同じ文書からスキャンした文書で、最後のページが真っ白だった場合にそのページをスキャンしなかった場合も考えられます。")
    print("あなたは、上記の状況に該当しますか。する場合は、1を入力してください。")
    checknum = int(input())
    if chenknum == 1:
        superchecker = 1
        #57行目の状況に該当するので、1にしておく。
    else:
        print("プログラムを終了します。")
        sys.exit()

#57行目にある状況を想定して、2つのファイルのページ数で、大きい方を格納する。
if even_num_page > odd_num_page or even_num_page == odd_num_page:
    maxpagenum = even_num_page
else:
    maxpagenum = odd_num_page

#PDFを、いよいよマージする。
if superchecker == 0:
    #まずは、57行目のような状態でない場合(supercheckerが0の場合)
    for pagenum in range(0,maxpagenum):
        oddpageobject = odd_pdf.getPage(pagenum)
        pdfwriter = addPage(oddpageobject)
        evenpageobject = even_pdf.getPage(pagenum)
        pdfwriter = addPage(evenpageobject)

    #マージングが終了したので、最後に書き出す
    pdfoutput = open(r"merged.pdf","wb")     #"meiged.pdf"という名前のPDFを作成する
    pdfwriter.write(pdfoutput)              #書き出す
    pdfoutput.close()                       #書き込みの終了
    print("すべての処理が正常に完了しました。")
    print(r'merged.pdfという名前のファイルが保存されているはずです。')
    print("プログラムを終了します。")

else:
    #次は、57行目のような状態である場合(superchecker1の場合)
    for pagenum in range(0,maxpagenum-1):
        oddpageobject = odd_pdf.getPage(pagenum)
        pdfwriter = addPage(oddpageobject)
        evenpageobject = even_pdf.getPage(pagenum)
        pdfwriter = addPage(evenpageobject)
        if pagenum == maxpagenum-2:
            lastpage = maxpagenum-1
    lastpageobject = even_pdf.getPage(lastpage)
    pdfwriter = addPage(lastpageobject)

    #マージングが終了したので、最後に書き出す
    pdfoutput = open(r"merged.pdf","wb")     #"meiged.pdf"という名前のPDFを作成する
    pdfwriter.write(pdfoutput)              #書き出す
    pdfoutput.close()                       #書き込みの終了
    print("すべての処理が正常に完了しました。")
    print(r"merged.pdfという名前のファイルが保存されているはずです。")
    print("プログラムを終了します。")

```
### 試したこと

1．エスケープ文字関連で怪しいところは、すべてraw文字列記述にした
2．相対パスではなく、os.getcwd()を用いて絶対パスを入手する方法へ変更した。

### 補足情報（FW/ツールのバージョンなど）
Python 3.8
importしたもの：
os
sys
PyPDF2 (バージョンは1.26.0)

以上です。皆様のご回答、お待ちしております。

Accepted Answer

- 質問へのコメントでも指摘されているように、`odd_object`と`even_object`のモードは`"rb"にしないと読み込めません。
- forループで`maxpagenum`という変数が突然出てくる。(偶数ページと奇数ページを比較して、より長くなる可能性がある)`odd_pdf.numPages`に代える。
- `pdfwriter`に書き込みを行なう`addPage()`は代入ではなくメソッド呼び出しなので、それに見合う形にする。
- 偶数ページのページ数は、奇数ページのページ数と同じか、1ページ少なくなるか(1,3,5ページと2,4ページなど)のどちらかである。1ページ少なくなる場合、`getPage()`しないように`even_pdf.numPages`を使ったif文で処理する。

~~残った問題点は、~~
- ~~カレントディレクトリに存在するPDFファイルが2個以外のときの処理。たとえば、1個だけある場合や、3個以上ある場合にどうするか。現在は`os.listdir()`の末尾2個だけが処理される。~~

globを使って「even_*.pdf」と「odd_*.pdf」をそれぞれ別個にリストに読み込み、それぞれのリストの要素が1のときだけ続く処理を行なうように変更した。これで、他のPDFファイル(以前作成したmerged.pdfなど)が存在しても動作する。

```Python
import glob
import sys
import PyPDF2

even_list = glob.glob("even_*.pdf")
odd_list = glob.glob("odd_*.pdf")
if len(even_list) != 1 or len(odd_list) != 1:
    print("1組のPDFファイル(even_*.pdf, odd_*pdf)になっていません")
    sys.exit(1)

odd_file_name = odd_list[0]
print("odd file: " + odd_file_name)
odd_object = open(odd_file_name, "rb")
odd_pdf = PyPDF2.PdfFileReader(odd_object)

even_file_name = even_list[0]
print("even file: " + even_file_name)
even_object = open(even_file_name, "rb")
even_pdf = PyPDF2.PdfFileReader(even_object)

pdfwriter = PyPDF2.PdfFileWriter()
for pagenum in range(0, odd_pdf.numPages):
    oddpageobject = odd_pdf.getPage(pagenum)
    pdfwriter.addPage(oddpageobject)
    if pagenum < even_pdf.numPages:
        evenpageobject = even_pdf.getPage(pagenum)
        pdfwriter.addPage(evenpageobject)

pdfoutput = open(r"merged.pdf", "wb")
pdfwriter.write(pdfoutput)
pdfoutput.close()
odd_object.close()
even_object.close()
print("すべての処理が正常に完了しました。")
```
追加分:
- PDFファイルの内容により、`PyPDF2.PdfFileReader()`で読み込むさいに「OSError: [Errno 22] Invalid argument」になるものがある。PyPDF2公式のGitHubの以下のページで議論されている(未解決)。

[A certain PDF File triggers OSError: [Errno 22] Invalid argument · Issue #530 · mstamy2/PyPDF2](https://github.com/mstamy2/PyPDF2/issues/530)

先頭の発言の「This file」のリンクからダウンロードした`NTB - LOI.pdf`(印刷された書類をスキャンしたっぽい内容)を`PyPDF2.PdfFileReader()`で読み込むと、確かに「OSError(以下略)」が発生する。質問者がスキャンで作成したPDFファイルも、これと同じ問題が起きている可能性が高い。なお、こちらで検証に使っていたPDFファイルは、印刷した文書をスキャンしたものではなく、Wordで作成した文書を直接PC上でPDF化したものだった。

とりあえずの対策として、上記のスレッドでは、GhostScript(gs)を使ってPDFファイルを書き換えるためのコマンドラインが提案されている。

> gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/printer -dNOPAUSE -dQUIET -dBATCH -sOutputFile="出力ファイル名" "入力ファイル名"

あいにくWindowsにGhostScriptを入れていなかったので、仮想Linuxマシンで上記のコマンドラインで変換を行なったところ、
```terminal
$ gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/printer -dNOPAUSE -dQUIET -dBATCH -sOutputFile="output.pdf" "input.pdf"
   **** Error:  An error occurred while reading an XREF table.
   **** The file has been damaged.  This may have been caused
   **** by a problem while converting or transfering the file.
   **** Ghostscript will attempt to recover the data.
   **** However, the output may be incorrect.
```
とエラーを吐いたものの、変換後のPDFファイルは問題なく`PyPDF2.PdfFileReader()`で読み込むことができた。なお、PDFビューアーアプリでは、どちらのPDFファイルも表示できている。

ということで、

0. 現在使っているPDFファイルではなく、Wordなどの文書を直接PDF化したものを用意して、コードの動作確認を行なう。
0. 最終目的であるスキャンされたPDFファイルのマージを行なうために、GhostScriptのダウンロードとインストールを行なう。
0. gsコマンドが利用可能になったら、上記のコマンドラインで変換を試み、生成されたPDFファイルを使って(動作確認済みの)コードでマージを行なう。

という手順が必要でしょう。

まえがき

発生している問題・エラーメッセージ

該当のソースコード

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問