質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
CentOS

CentOSは、主にRed Hat Enterprise Linux(RHEL)をベースにした、フリーのソフトウェアオペレーティングシステムです。

PDF

PDF(Portable Document Format)とはISOによって国際標準として制定されている電子ドキュメント用の拡張子です。

PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

Q&A

0回答

1450閲覧

pdftotext PDFから抽出した日本語が文字化けしてしまう

greentea_mmlg

総合スコア14

CentOS

CentOSは、主にRed Hat Enterprise Linux(RHEL)をベースにした、フリーのソフトウェアオペレーティングシステムです。

PDF

PDF(Portable Document Format)とはISOによって国際標準として制定されている電子ドキュメント用の拡張子です。

PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

0グッド

2クリップ

投稿2019/03/14 04:27

編集2019/03/14 14:06

毎度お世話になります。

現在、PDF請求書から文字列を抽出しようとしており、
CentOS 7 にてxpdfのpdftotextを使っています。

抽出結果をテキストで取得することはできるのですが、その際に日本語部分が文字化けしています。
xpdfの日本語化の処理を調べ、対応をしましたが、特に結果が変わりませんでした。

文字エンコードも疑い、pdftotextのオプションに指定できるUTF-8やShift-JISを試しましたが望む結果にはなりませんでした。

恐れ入りますが、こちらの現象をご存知の方がいらっしゃいましたら、お知恵をお借りできないでしょうか。
よろしくお願いいたします。

追記
ご指摘いただきありがとうございます。
以下、バージョン情報や、出力結果のサンプルを記載いたします。
Xpdfのバージョンは3.04です。
インストール方法は yum install xpdfでインストールしました。

実行結果は以下の通りです。
pdftotext -enc UTF-8 file_name.pdf の実行結果

参考にしたURL
xpdfの日本語化

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Stan_Dma

2019/03/14 09:09 編集

Do you have pdftotext from the poppler package in your distribution? I am not sure this and xpdf version. But quick tests would show us different result of processing pdf files contained Japanese fonts. The pdftotext of the poppler version could be successful for such a pdf file, while the xpdf version not. How about using the poppler version instead if possible?
ikedas

2019/03/14 13:55 編集

Stan_Dmaさんがおっしゃっている通り、使用しているソフトウェアのバージョンを明記してください (あとどうやってインストールしたのかも)。質問文に追記してください。それと、「文字化けする」ということなので、どういうふうにばけているのか見せてもらえるといいです。画面のスクリーンショットでよいので。
FKM

2019/03/14 15:31

この前紹介したリンクページは情報が古かったみたいなので、こっちのページだと コマンドも乗っていますので確かめてみてください。 https://texwiki.texjp.org/?Xpdf
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問