国外から送られてくるPDF請求書の列名だけ日本語に置き換えて出力するコードを作成したい
解決済
回答 1
投稿
- 評価
- クリップ 0
- VIEW 1,188
お世話になります。
現在、件名の依頼をクライアントより受けており、良い方法を模索中です。
Webアプリケーションとして開発するもよし、なにか現存のツールでPDF内の文字列の一括変換、座標を指定して変換などができるのであればそれでもよし、という具合です。
自分で思いついた方法としてPHPでPDFの中身を読み取り、出力する方法を取りました。
以下が詳細です。
OCR APIを用いてPDF情報を読みとる
↓
新たにPDFを作成
↓
読み取った情報を入れていく
↓
PDF出力
環境
PHP5.5
GoogleCloudVision API
Mpdf
実行していく中で、以下のような問題が発生しました。
1.OCRでテキストを読み取った際、レイアウト情報が付随していないため、パースができない
(テキストの羅列で出力されてしまうため、どの位置にどのテキストがあったのかわからず、変換後のPDFにデータを入れていくことができない)
2.OCRにかける際、請求書のテーブルごとではなく、一行ずつ取得してしまうため、可能であればテーブルのセルごとに取得したい
→ 1.が叶えば不要の可能性もありますが。
フロー後半の、PDFを作成し出力する、という部分は完成しているため、
あとはもとのPDFからレイアウト情報を保持したままプログラム内で扱えるデータとして取得できれば先に進めると思っています。
稚拙な文章で大変恐縮ですが、皆様のお知恵をお借りできればと思っております。
よろしくお願いいたします。
-
気になる質問をクリップする
クリップした質問は、後からいつでもマイページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
クリップを取り消します
-
良い質問の評価を上げる
以下のような質問は評価を上げましょう
- 質問内容が明確
- 自分も答えを知りたい
- 質問者以外のユーザにも役立つ
評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。
質問の評価を上げたことを取り消します
-
評価を下げられる数の上限に達しました
評価を下げることができません
- 1日5回まで評価を下げられます
- 1日に1ユーザに対して2回まで評価を下げられます
質問の評価を下げる
teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。
- プログラミングに関係のない質問
- やってほしいことだけを記載した丸投げの質問
- 問題・課題が含まれていない質問
- 意図的に内容が抹消された質問
- 過去に投稿した質問と同じ内容の質問
- 広告と受け取られるような投稿
評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。
質問の評価を下げたことを取り消します
この機能は開放されていません
評価を下げる条件を満たしてません
質問の評価を下げる機能の利用条件
この機能を利用するためには、以下の事項を行う必要があります。
- 質問回答など一定の行動
-
メールアドレスの認証
メールアドレスの認証
-
質問評価に関するヘルプページの閲覧
質問評価に関するヘルプページの閲覧
checkベストアンサー
0
OCRライブラリを使わなくても、確かpdfファイルから文字を抽出できたはずです。
そして、エンコードを使い改行コードなどで文字を振り分け、必要な部分だけを抽出し、配列にでも格納
あとはTCPDFとかFPDIみたいなものを使って、新たなテンプレートを作り、そこに格納いていったらいいと思います。
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
15分調べてもわからないことは、teratailで質問しよう!
- ただいまの回答率 88.34%
- 質問をまとめることで、思考を整理して素早く解決
- テンプレート機能で、簡単に質問をまとめられる
質問への追記・修正、ベストアンサー選択の依頼
sazi
2019/03/10 22:03
レイアウト情報を付加したPDFに変更してもらうというのは不可なんですよね。
greentea_mmlg
2019/03/11 10:25
ご回答いただきありがとうございます。
>1.OCRでテキストを読み取った際、レイアウト情報が付随していないため、パースができない
→ こちらに対してご回答をいただいている認識でよろしいでしょうか。
こちらは、もとのPDFにはテーブルがいくつか使われているため、そのレイアウトを崩さずにOCRで読み取りたいが、OCR側でレイアウトを保持できず、バラバラに文字が取得されてしまう。という内容でございました。文章が足りておらず申し訳ございません。
そのため、PDF側としてはレイアウトはされているため、読み取る側のシステムの問題ととらえております。
#それとも、PDF内に付随情報としてレイアウト情報などをつけることができるのでしょうか。知識不足で申し訳ございません。
sazi
2019/03/11 10:30
>pdftohtmlやpdftotextなどのコマンドを試してみたところ、PDFから文字は抽出できますが、レイアウト情報が取れず、またPDFにフォントが埋め込まれていない文字が文字化けしてしまうため
上記部分に、PDF自体が対応することは出来ないか?という意図です。
greentea_mmlg
2019/03/11 10:45
ご回答いただきありがとうございます。
意図を組み違えてしまい申し訳ございません。ご指摘いただきありがとうございます。
>pdftohtmlやpdftotextなどのコマンドを試してみたところ、PDFから文字は抽出できますが、レイアウト情報が取れず
→ こちらに対してのPDFにレイアウト情報を追加できないか、というご指摘ですが、PDFをシステムで吐き出しているワークフローのようで、不可と思われます。ご教示いただきありがとうございます。