一見同じPDFでも、テキストデータが埋められている場合と、画像だけの場合があります。
テキストが埋まっている場合は、PDFBoxなどツールを使うことで抽出することができます。
画像だけの場合は、OCRのようなやり方で日本語のテキストを抽出するしかないですが、結局精度がそこまで高くないので人手でチェックが必要になってしまうようですね。
取引先との関係にもよりますが、PDFだけでなくCSVなどでもデータを送ってもらうようにした方が、結局すんなり解決するかもしれません。
前提・実現したいこと
ここに質問の内容を詳しく書いてください。
毎日大量の納品書が、PDFデータで届きます。
これを必要な個所のみエクセルへ転記させたいのですがなにかよい方法はないでしょうか。
試したこと
RPAで転記を試みましたが、各会社の座標の位置が統一されていない。
ABBEYのOCRを試みましたが、100%の正確率は求められない(海外製のためか漢字が文字化けおこりやすい)
ありがとうございます。
CSVを貰えないか交渉しましたがシステムを改修しないといけないからと断られました。
PDFbox確認します❗
あなたの回答
tips
プレビュー