実現したいこと
仕事で請求書の処理を行う際に、
①PDFファイルにコメントを追加
②PDFファイルの名前を変更
③指定されたフォルダに格納する
という業務があります。これをPythonで自動化したく質問させていただきます。
現在は①②③それぞれ単体で動くコードを作成することができている状態です。
発生している問題・分からないこと
どの会社からきた請求書かによって、記載するコメントの内容やPDFファイル名を変更したいです。
(A社の請求書(1)はコメントにA社と追加し、日付_A社_交通費、
A社の請求書(2)はコメントにA社と追加し、日付_A社_飲食代
B社の請求書はコメントにB社と追加し、日付_B社_飲食代
のようにしたい)
・A社かB社かは、請求書のテキストを抽出し、請求書のテキストに含まれている会社名によって判断すればいいのではと考えて④テキストを抽出するコードを調べましたが、
抽出したテキストに含まれている会社名によって追加するコメントを変える方法がわからず困っています。
・A社のPDFファイル名:交通費か飲食代かについても、請求書のテキストを抽出し、金額によって(金額は毎月固定)交通費か飲食代かに変更したいです。
実装方法の検討がつかず、お力添えいただけますと幸いです。もっと他の実装方法が簡単などあればご教示いただきたいです。
ソースコードが長くなってしまい申し訳ございません。
よろしくお願いいたします。
該当のソースコード
Python
1①②③④のソースコードを記載します。 2 3①PDFファイルにコメントを追加 4from pypdf.annotations import Popup, Text 5from pypdf import PdfWriter 6 7# Arrange 8writer = PdfWriter() 9writer.append(R"C:\Users\motoy\Desktop\Python\自動化検討\請求書.pdf", [0]) # 10 11# Act 12text_annotation = writer.add_annotation( 13 0, 14 Text( 15 text="A社", 16 17 rect=(50, 550, 200, 650), 18 open=True, 19 ), 20) 21 22popup_annotation = Popup( 23 rect=(50, 550, 200, 650), 24 open=True, 25 parent=text_annotation, # use the output of add_annotation 26) 27 28writer.write(R"C:\Users\motoy\Desktop\Python\自動化検討\請求書.pdf") 29 30 31 32②PDFファイルの名前を変更 33③指定されたフォルダに格納 34import shutil 35import glob 36files = glob.glob(R"C:\Users\motoy\Desktop\Python\自動化検討\請求書.pdf") 37for file in files : 38 shutil.move(file, R"C:\Users\motoy\Desktop\Python\自動化検討2\請求書.pdf") 39import os 40import datetime 41 42#yyyy-mm-ddという形でtodayに日付を格納 43today=datetime.date.today() 44today = str(today) 45 46#ハイフンを除去しyyyymmddという形に変更 47today=str(today).replace('-','') 48 49# 元のファイル名と保存場所 50name = "請求書.pdf" 51path = "C:/Users/motoy/Desktop/Python/自動化検討2" 52 53# 新しいファイル名 54new_name = today + "_" + "A社" 55 56# ファイル名を変更する 57before = path + name 58after = path + new_name 59os.rename(before,after) 60 61 62④テキストを抽出する 63# ライブラリのインポート 64from pypdf import PdfReader 65 66# PDFファイルの読み込み 67reader = PdfReader(R"C:\Users\motoy\Desktop\Python\自動化検討\請求書.pdf") 68 69# ページ数の取得 70number_of_pages = len(reader.pages) 71 72# 1ページ目を取得 73page_no1 = reader.pages[0] 74 75# テキストの抽出 76text = page_no1.extract_text() 77print(text) 78 79if "A社" in text : 80 print("True") 81else : 82 print("false")
試したこと・調べたこと
- teratailやGoogle等で検索した
- ソースコードを自分なりに変更した
- 知人に聞いた
- その他
上記の詳細・結果
PDFへのコメント追加は下記URLを参照しPyPDFを使用して行っております。
https://pypdf.readthedocs.io/en/stable/user/adding-pdf-annotations.html#popup
補足
特になし
あなたの回答
tips
プレビュー