質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
87.20%
Google API

Googleは多種多様なAPIを提供していて、その多くはウェブ開発者向けのAPIです。それらのAPIは消費者に人気なGoogleのサービス(Google Maps, Google Earth, AdSense, Adwords, Google Apps,YouTube等)に基づいています。

PDF

PDF(Portable Document Format)とはISOによって国際標準として制定されている電子ドキュメント用の拡張子です。

PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

JavaScript

JavaScriptは、プログラミング言語のひとつです。ネットスケープコミュニケーションズで開発されました。 開発当初はLiveScriptと呼ばれていましたが、業務提携していたサン・マイクロシステムズが開発したJavaが脚光を浴びていたことから、JavaScriptと改名されました。 動きのあるWebページを作ることを目的に開発されたもので、主要なWebブラウザのほとんどに搭載されています。

解決済

国外から送られてくるPDF請求書の列名だけ日本語に置き換えて出力するコードを作成したい

greentea_mmlg
greentea_mmlg

総合スコア14

Google API

Googleは多種多様なAPIを提供していて、その多くはウェブ開発者向けのAPIです。それらのAPIは消費者に人気なGoogleのサービス(Google Maps, Google Earth, AdSense, Adwords, Google Apps,YouTube等)に基づいています。

PDF

PDF(Portable Document Format)とはISOによって国際標準として制定されている電子ドキュメント用の拡張子です。

PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

JavaScript

JavaScriptは、プログラミング言語のひとつです。ネットスケープコミュニケーションズで開発されました。 開発当初はLiveScriptと呼ばれていましたが、業務提携していたサン・マイクロシステムズが開発したJavaが脚光を浴びていたことから、JavaScriptと改名されました。 動きのあるWebページを作ることを目的に開発されたもので、主要なWebブラウザのほとんどに搭載されています。

1回答

-1評価

0クリップ

1954閲覧

投稿2019/03/10 12:15

お世話になります。

現在、件名の依頼をクライアントより受けており、良い方法を模索中です。

Webアプリケーションとして開発するもよし、なにか現存のツールでPDF内の文字列の一括変換、座標を指定して変換などができるのであればそれでもよし、という具合です。

自分で思いついた方法としてPHPでPDFの中身を読み取り、出力する方法を取りました。
以下が詳細です。
OCR APIを用いてPDF情報を読みとる

新たにPDFを作成

読み取った情報を入れていく

PDF出力

環境
PHP5.5
GoogleCloudVision API
Mpdf

実行していく中で、以下のような問題が発生しました。
1.OCRでテキストを読み取った際、レイアウト情報が付随していないため、パースができない
(テキストの羅列で出力されてしまうため、どの位置にどのテキストがあったのかわからず、変換後のPDFにデータを入れていくことができない)

2.OCRにかける際、請求書のテーブルごとではなく、一行ずつ取得してしまうため、可能であればテーブルのセルごとに取得したい
→ 1.が叶えば不要の可能性もありますが。

フロー後半の、PDFを作成し出力する、という部分は完成しているため、
あとはもとのPDFからレイアウト情報を保持したままプログラム内で扱えるデータとして取得できれば先に進めると思っています。

稚拙な文章で大変恐縮ですが、皆様のお知恵をお借りできればと思っております。
よろしくお願いいたします。

良い質問の評価を上げる

以下のような質問は評価を上げましょう

  • 質問内容が明確
  • 自分も答えを知りたい
  • 質問者以外のユーザにも役立つ

評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

  • プログラミングに関係のない質問
  • やってほしいことだけを記載した丸投げの質問
  • 問題・課題が含まれていない質問
  • 意図的に内容が抹消された質問
  • 過去に投稿した質問と同じ内容の質問
  • 広告と受け取られるような投稿

評価を下げると、トップページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

sazi

2019/03/10 13:03

レイアウト情報を付加したPDFに変更してもらうというのは不可なんですよね。
greentea_mmlg

2019/03/11 01:25

ご回答いただきありがとうございます。 >1.OCRでテキストを読み取った際、レイアウト情報が付随していないため、パースができない → こちらに対してご回答をいただいている認識でよろしいでしょうか。 こちらは、もとのPDFにはテーブルがいくつか使われているため、そのレイアウトを崩さずにOCRで読み取りたいが、OCR側でレイアウトを保持できず、バラバラに文字が取得されてしまう。という内容でございました。文章が足りておらず申し訳ございません。 そのため、PDF側としてはレイアウトはされているため、読み取る側のシステムの問題ととらえております。 #それとも、PDF内に付随情報としてレイアウト情報などをつけることができるのでしょうか。知識不足で申し訳ございません。
sazi

2019/03/11 01:30

>pdftohtmlやpdftotextなどのコマンドを試してみたところ、PDFから文字は抽出できますが、レイアウト情報が取れず、またPDFにフォントが埋め込まれていない文字が文字化けしてしまうため 上記部分に、PDF自体が対応することは出来ないか?という意図です。
greentea_mmlg

2019/03/11 01:45

ご回答いただきありがとうございます。 意図を組み違えてしまい申し訳ございません。ご指摘いただきありがとうございます。 >pdftohtmlやpdftotextなどのコマンドを試してみたところ、PDFから文字は抽出できますが、レイアウト情報が取れず → こちらに対してのPDFにレイアウト情報を追加できないか、というご指摘ですが、PDFをシステムで吐き出しているワークフローのようで、不可と思われます。ご教示いただきありがとうございます。

まだ回答がついていません

会員登録して回答してみよう

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
87.20%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る

Google API

Googleは多種多様なAPIを提供していて、その多くはウェブ開発者向けのAPIです。それらのAPIは消費者に人気なGoogleのサービス(Google Maps, Google Earth, AdSense, Adwords, Google Apps,YouTube等)に基づいています。

PDF

PDF(Portable Document Format)とはISOによって国際標準として制定されている電子ドキュメント用の拡張子です。

PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

JavaScript

JavaScriptは、プログラミング言語のひとつです。ネットスケープコミュニケーションズで開発されました。 開発当初はLiveScriptと呼ばれていましたが、業務提携していたサン・マイクロシステムズが開発したJavaが脚光を浴びていたことから、JavaScriptと改名されました。 動きのあるWebページを作ることを目的に開発されたもので、主要なWebブラウザのほとんどに搭載されています。