国外から送られてくるPDF請求書の列名だけ日本語に置き換えて出力するコードを作成したい

お世話になります。

現在、件名の依頼をクライアントより受けており、良い方法を模索中です。

Webアプリケーションとして開発するもよし、なにか現存のツールでPDF内の文字列の一括変換、座標を指定して変換などができるのであればそれでもよし、という具合です。

自分で思いついた方法としてPHPでPDFの中身を読み取り、出力する方法を取りました。
以下が詳細です。
OCR APIを用いてPDF情報を読みとる
↓
新たにPDFを作成
↓
読み取った情報を入れていく
↓
PDF出力

環境
PHP5.5
GoogleCloudVision API
Mpdf

実行していく中で、以下のような問題が発生しました。
1.OCRでテキストを読み取った際、レイアウト情報が付随していないため、パースができない
（テキストの羅列で出力されてしまうため、どの位置にどのテキストがあったのかわからず、変換後のPDFにデータを入れていくことができない）

2.OCRにかける際、請求書のテーブルごとではなく、一行ずつ取得してしまうため、可能であればテーブルのセルごとに取得したい
→　1.が叶えば不要の可能性もありますが。

フロー後半の、PDFを作成し出力する、という部分は完成しているため、
あとはもとのPDFからレイアウト情報を保持したままプログラム内で扱えるデータとして取得できれば先に進めると思っています。

稚拙な文章で大変恐縮ですが、皆様のお知恵をお借りできればと思っております。
よろしくお願いいたします。

sazi

2019/03/10 13:03

レイアウト情報を付加したPDFに変更してもらうというのは不可なんですよね。

greentea_mmlg

2019/03/11 01:25

ご回答いただきありがとうございます。 >1.OCRでテキストを読み取った際、レイアウト情報が付随していないため、パースができない →　こちらに対してご回答をいただいている認識でよろしいでしょうか。こちらは、もとのPDFにはテーブルがいくつか使われているため、そのレイアウトを崩さずにOCRで読み取りたいが、OCR側でレイアウトを保持できず、バラバラに文字が取得されてしまう。という内容でございました。文章が足りておらず申し訳ございません。そのため、PDF側としてはレイアウトはされているため、読み取る側のシステムの問題ととらえております。 #それとも、PDF内に付随情報としてレイアウト情報などをつけることができるのでしょうか。知識不足で申し訳ございません。

sazi

2019/03/11 01:30

>pdftohtmlやpdftotextなどのコマンドを試してみたところ、PDFから文字は抽出できますが、レイアウト情報が取れず、またPDFにフォントが埋め込まれていない文字が文字化けしてしまうため上記部分に、PDF自体が対応することは出来ないか？という意図です。

greentea_mmlg

2019/03/11 01:45

ご回答いただきありがとうございます。意図を組み違えてしまい申し訳ございません。ご指摘いただきありがとうございます。 >pdftohtmlやpdftotextなどのコマンドを試してみたところ、PDFから文字は抽出できますが、レイアウト情報が取れず →　こちらに対してのPDFにレイアウト情報を追加できないか、というご指摘ですが、PDFをシステムで吐き出しているワークフローのようで、不可と思われます。ご教示いただきありがとうございます。

行動規範の内容に同意します

回答1件

ベストアンサー

OCRライブラリを使わなくても、確かpdfファイルから文字を抽出できたはずです。
そして、エンコードを使い改行コードなどで文字を振り分け、必要な部分だけを抽出し、配列にでも格納

あとはTCPDFとかFPDIみたいなものを使って、新たなテンプレートを作り、そこに格納いていったらいいと思います。

既存のPDF文書をもとに新たなPDF文書を生成する（FPDI）

投稿2019/03/10 12:34

FKM

総合スコア3635

greentea_mmlg

2019/03/10 12:47

ご回答いただきありがとうございます。 >OCRライブラリを使わなくても、確かpdfファイルから文字を抽出できたはずです。 →　こちらに関してですが、pdftohtmlやpdftotextなどのコマンドを試してみたところ、PDFから文字は抽出できますが、レイアウト情報が取れず、またPDFにフォントが埋め込まれていない文字が文字化けしてしまうため、OCRで取得しておりました。また、送られてくる請求書の外国語に表記ゆれが多いらしく、英語、中国語、間違った日本語が含まれていることがある、という状態と聞いており、自分でパースすることを若干あきらめておりました。情報が足りておらず申し訳ございません。やはり上記の方法でどうにか使う部分の文字だけ抽出する方法が一番確実でしょうか...。自分が知らないだけでテーブルのセルごとに取得できるOCRがあったり座標を含んで返せるAPIがあるのかと思っていた部分もあり、ご質問をさせていただいておりました。迅速に貴重なご回答をいただきありがとうございます。今後の大きな参考にさせていただきます。

FKM

2019/03/10 12:58 編集

それでFPDIというライブラリを使っているようです。文字化けが問題になるなら最初から全部統一コードにしてしまうのも手です。 https://www.setasign.com/products/fpdi/about/

greentea_mmlg

2019/03/11 01:21

ご回答いただきありがとうございます。送られてきたPDFをテンプレートとして書き換えが必要な部分を上から書き換えるという方法になるのでしょうか。解釈が違っておりましたら申し訳ございません。お手すきの際にご教示いただけますと幸いでございます。

FKM

2019/03/11 01:29

元のPDFは原本としてそのままとっておいて、それを取り込み、必要な部分を取得し、原本を複製したものをテンプレートとしてデータを出力したPDFを新たに出力するという算段です。

greentea_mmlg

2019/03/11 06:02

ご解説いただきありがとうございます。方法に関して把握することができました。つきましては、上記の方法を実装するにあたり、手段がわからない部分がございます。 >元のPDFは原本としてそのままとっておいて、 >それを取り込み、必要な部分を取得 →　この部分に関して、どの手段を取ればよいでしょうか。前に挙げていただいているOCRを使わずにpdfから抽出する、というものでしょうか。もしくは、PDFIやTCPDFを使って取得を行うことができるのでしょうか。 >原本を複製したものをテンプレートとしてデータを出力したPDFを新たに出力する →　こちらはPDFIを用いて行えることを理解できております。前半部分のフローに関して、どの手法を用いてpdfから情報を取得するのか、という部分がわかりかねております。もしくは、フローの理解が間違っておりましたら、大変お手数ですが、手順ごとの手段をご教示いただけますでしょうか。助言いただいている中、理解ができておらず大変申し訳ございません。お手すきの際にご確認いただけますと幸いでございます。

FKM

2019/03/11 06:22

試しにOCRとPDFIで文字列を出力してみて見比べてみてはいかがでしょうか。 OCRだと文字化けが出ているのと抽出の目安となる改行コードなどがわからないとのことでしたので、ライブラリならうまく抽出できるかも、という想定です。

greentea_mmlg

2019/03/11 06:57

ご回答いただきありがとうございます。 >試しにOCRとPDFIで文字列を出力してみて見比べてみてはいかがでしょうか。 >OCRだと文字化けが出ているのと抽出の目安となる改行コードなどがわからないとのことでしたので、 >ライブラリならうまく抽出できるかも、という想定です。 →　ご解説いただきありがとうございます。上記を試させていただきたいと考えておりましたが、PHPで扱えるライブラリで、PDFから文字を抽出できるものを随分探しましたが、どれもPDFの作成ができるものばかりで、抽出できるものが見つかっていないというところが現状です。こちらが見つかり次第、ご提示いただいているOCRとの見比べを行ってみたいと思います。貴重なご意見をいただきありがとうございます。

FKM

2019/03/11 07:01 編集

気になって取得に特化したものがないか調べてみたところ、xpdfというのがあるみたいです。 http://blog.livedoor.jp/kmiwa_project/archives/1051633998.html

greentea_mmlg

2019/03/11 08:27

ご教示いただきありがとうございます。 xpdfを試し、さらにxpdfをもとに作ったlinuxにて扱えるpopplerのpdftotextやpdftohtml、pdftotextコマンドの-layoutオプションを試してみました。こちらの結果としましては、・PDFにフォントが埋め込まれていない日本語は文字化けしてしまう →　変換の際に文字コード指定もしたが、解決せず・テーブルのセルごとに値が取得できる →　OCRと違いテーブルであることを検知してセル内のテキストを一つの語群として抽出してくれるため、コード内で扱うにも扱いやすい以上のような結果となりました。明確にツールまでご提示いただきありがとうございます。上記の懸念のうち、1つ目は痛い部分ではありますが2つ目はすごく魅力的な要素であるため、その他のOCRの方法などとも比べてクライアントと相談を重ねていこうと思います。迅速にご回答いただき、また、的確な助言をくださりありがとうございます。大変参考になりました。

FKM

2019/03/11 08:49 編集

日本語バッチも当てた方が良さそうですね。 http://pdf-file.nnn2.com/?p=858

greentea_mmlg

2019/03/11 14:03

ご教示いただきありがとうございます。紹介されているものがWindows用で、自分の環境がlinuxのため、現在xpdfの日本語化に少々時間を取られている状態です。（他サイトのlinux版で紹介されていた方法を試したがうまくいかない）こちらが正しく動き次第ご報告させていただきます。ご回答いただきありがとうございます。

行動規範の内容に同意します