お世話になります。
現在、件名の依頼をクライアントより受けており、良い方法を模索中です。
Webアプリケーションとして開発するもよし、なにか現存のツールでPDF内の文字列の一括変換、座標を指定して変換などができるのであればそれでもよし、という具合です。
自分で思いついた方法としてPHPでPDFの中身を読み取り、出力する方法を取りました。
以下が詳細です。
OCR APIを用いてPDF情報を読みとる
↓
新たにPDFを作成
↓
読み取った情報を入れていく
↓
PDF出力
環境
PHP5.5
GoogleCloudVision API
Mpdf
実行していく中で、以下のような問題が発生しました。
1.OCRでテキストを読み取った際、レイアウト情報が付随していないため、パースができない
(テキストの羅列で出力されてしまうため、どの位置にどのテキストがあったのかわからず、変換後のPDFにデータを入れていくことができない)
2.OCRにかける際、請求書のテーブルごとではなく、一行ずつ取得してしまうため、可能であればテーブルのセルごとに取得したい
→ 1.が叶えば不要の可能性もありますが。
フロー後半の、PDFを作成し出力する、という部分は完成しているため、
あとはもとのPDFからレイアウト情報を保持したままプログラム内で扱えるデータとして取得できれば先に進めると思っています。
稚拙な文章で大変恐縮ですが、皆様のお知恵をお借りできればと思っております。
よろしくお願いいたします。
回答1件
あなたの回答
tips
プレビュー