毎度お世話になります。
現在、PDF請求書から文字列を抽出しようとしており、
CentOS 7 にてxpdfのpdftotextを使っています。
抽出結果をテキストで取得することはできるのですが、その際に日本語部分が文字化けしています。
xpdfの日本語化の処理を調べ、対応をしましたが、特に結果が変わりませんでした。
文字エンコードも疑い、pdftotextのオプションに指定できるUTF-8やShift-JISを試しましたが望む結果にはなりませんでした。
恐れ入りますが、こちらの現象をご存知の方がいらっしゃいましたら、お知恵をお借りできないでしょうか。
よろしくお願いいたします。
追記
ご指摘いただきありがとうございます。
以下、バージョン情報や、出力結果のサンプルを記載いたします。
Xpdfのバージョンは3.04です。
インストール方法は yum install xpdfでインストールしました。
参考にしたURL
xpdfの日本語化
あなたの回答
tips
プレビュー