全体の仕組み(流れ)
Excel を開く
Excel ファイルには「コマンドボタン」が作られています。
このボタンには VBA のマクロ(プログラム)が登録されています。
ボタンをクリックする
ボタンを押すと、VBA が動き出します。
まず「どの PDF を OCR するか」を選ぶ画面が出ます。
そこで PDF を選ぶと、そのファイルの場所が VBA に渡されます。
VBA が Python を呼び出す
VBA の中で「Python を実行」という命令を作ります。
このとき、
使う Python スクリプト(例: pdf_to_excel.py)
選んだ PDF のファイルパス
書き込む Excel の列番号
をまとめて Python に渡します。
→ つまり VBA は「橋渡し役」になっていて、Excel から外部の Python スクリプトを起動しているわけです。
Python が OCR を実行する
Python は PDF をページごとに画像に変換します。
その画像を OCR にかけて文字を認識します。
取り出した文字をまとめてテキスト化します。
結果を保存する
Python は OCR の結果を
テキストファイル(.txt)
Excel ファイル(.xlsx)
に保存
のような順序でプログラムを作ろうとしてますが図面を読み取ってデータをつくってくれるようなプログラムを作りたいのですがPDFのオブジェクトをうまく読み取ってくれません、オブジェクトの読み取れる方法などありましたら教えてください
