ローカルに保存したpdfファイルの中の文字列をVBAで拾いたいです。
AcrobatProを使うとできるらしいのですが、環境的に使うことができません。
pdfをテキストデータとして読みこんでみたのですが、
恐らく本文かと思われる部分が文字化けしてしまいます。(拾いたい本文は平仮名や漢字を含んでいます)
shift-jisやUTF-8でエンコードしてみましたが文字化けしています。
調べたら「Tfオペレーター」などの単語が見つかったのですが、私の持っているpdfファイルをメモ帳で開いてみてもTfという記述は見つかりませんでした。
正しく読み込むにはどうしたら良いのでしょうか。
VBAに拘ると多分無理です。他言語なら、Apache Tikaとかそういった事が可能なライブラリもありますので、そういったものと連携すれば可能かもしれません。ただ、基本的にPDFは完全なテキストが抽出できるとは限りません。
[PDFからテキストを抽出するのはなぜ難しいのか? - GIGAZINE]
https://gigazine.net/news/20200305-pdf-text-extraction/
[簡単そうで簡単ではないPDFのテキスト抽出]
https://www.antenna.co.jp/pdf/reference/text-extractor.html
高精度で行うような製品は、大抵有償だと思います。
ありがとうございます。
取り急ぎはテキスト抽出に関しては諦めようかと思います。
回答1件
あなたの回答
tips
プレビュー