【VBA】pdfファイルの中身の文字を取得したい

ローカルに保存したpdfファイルの中の文字列をVBAで拾いたいです。
AcrobatProを使うとできるらしいのですが、環境的に使うことができません。

pdfをテキストデータとして読みこんでみたのですが、
恐らく本文かと思われる部分が文字化けしてしまいます。（拾いたい本文は平仮名や漢字を含んでいます）
shift-jisやUTF-8でエンコードしてみましたが文字化けしています。

調べたら「Tfオペレーター」などの単語が見つかったのですが、私の持っているpdfファイルをメモ帳で開いてみてもTfという記述は見つかりませんでした。

正しく読み込むにはどうしたら良いのでしょうか。

退会済みユーザー

2021/10/12 08:41 編集

VBAに拘ると多分無理です。他言語なら、Apache Tikaとかそういった事が可能なライブラリもありますので、そういったものと連携すれば可能かもしれません。ただ、基本的にPDFは完全なテキストが抽出できるとは限りません。 [PDFからテキストを抽出するのはなぜ難しいのか？ - GIGAZINE] https://gigazine.net/news/20200305-pdf-text-extraction/ [簡単そうで簡単ではないPDFのテキスト抽出] https://www.antenna.co.jp/pdf/reference/text-extractor.html 高精度で行うような製品は、大抵有償だと思います。

kakerukyun

2021/10/12 10:54

ありがとうございます。取り急ぎはテキスト抽出に関しては諦めようかと思います。

行動規範の内容に同意します

回答1件

ベストアンサー

以下が参考になるでしょうか？

https://qiita.com/t-yama-3/items/0b9dc820528b61ed9f77

投稿2021/10/12 09:00

hex309

総合スコア761

kakerukyun

2021/10/12 10:56

当初想定していた方法とは違ってしまいますが、こちらの方法で一応私のやりたいことは実現できるのでこちらの方法を採用させて頂こうと思います。ありがとうございました。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.25%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する