質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
PDF

PDF(Portable Document Format)とはISOによって国際標準として制定されている電子ドキュメント用の拡張子です。

PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

Q&A

0回答

1119閲覧

PDFからのテキスト抽出にて文字化け

enya1010

総合スコア0

PDF

PDF(Portable Document Format)とはISOによって国際標準として制定されている電子ドキュメント用の拡張子です。

PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

0グッド

0クリップ

投稿2021/06/24 06:29

編集2021/06/25 01:01

PdfToTextというオープンソースを使い、PDF内のテキストを抽出したいと思っております。

発生している問題・エラーメッセージ

pdfの日本語部分だけ文字化けしてしまいます。

該当のソースコード

以下コード部分が文字化けの原因かなと思ってます。

protected function CodePointToUtf8 ( $code ) { if ( $code ) { $result = '' ; while ( $code ) { $word = ( $code & 0xFFFF ) ; if ( ! isset ( self::$UnicodeToSimpleAscii [ $word ] ) ) { $entity = "&#$word;" ; $result .= mb_convert_encoding ( $entity, 'UTF-8', 'HTML-ENTITIES' ) . $result ; } else $result .= self::$UnicodeToSimpleAscii [ $word ] ; $code = ( integer ) ( $code / 0xFFFF ) ; // There is no unsigned right-shift operator in PHP... } return ( $result ) ; } // No translation is apparently possible : use a placeholder to signal this situation else { if ( strpos ( PdfToText::$Utf8Placeholder, '%' ) === false ) { return ( PdfToText::$Utf8Placeholder ) ; } else return ( sprintf ( PdfToText::$Utf8Placeholder, $code ) ) ; } }

試したこと

$result .= mb_convert_encoding ( $entity, 'UTF-8', 'HTML-ENTITIES' ) . $result ;
の" 'HTML-ENTITIES' "部分をShift-Jisや他の文字コードで試してみましたが駄目でした。(むしろ、今までテキスト化できていた英語や数字まで文字化けするようになりました)

補足情報(FW/ツールのバージョンなど)

phpはver7.4です。

PDFの文章もこちらにコピペいたします。
実際にテストでアップロードしているものです。
上が原文、下が文字化け部分です。

これはtestです。

ここにはWordPressでインデックスを作成するための必要な文字を記載しています。
6/21¥¥<>・・

スクショ(最後の部分がなぜかコピペできませんでした...)
イメージ説明


͞ΗͺtestͲͤɽ

͞͞ͶͺWordPressͲ΢ϱυρέηΝࡠ੔ͤΖͪΌ͹චགྷ͵ช࣊Νى
6/21ʤ!#$%&()ʥ)=~~~ˉˉʥ
ʽʾ<>?_//*-+ʞʞ..ʀ

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

m.ts10806

2021/06/24 07:29

最終更新2017年というのが引っかかります(起きている問題と直接関係はないかもしれませんが、少なくともPHP7.4対応ではないはずなので)
enya1010

2021/06/24 07:48

回答ありがとうございます。 PHPやプログラミングに関して初心者なので気付かなかったです。 では、このコードを一部変えただけでは解決できないような問題なのでしょうか??
m.ts10806

2021/06/24 07:51

回答ではなく質問への追記修正依頼です。 今回はあくまで回答する内容ではなく、気になった点のみでしたのでこちらに記載しています。 文字化けはあくまで文字コードの指定と環境のズレから起きるものですので、おそらくはそこまでのものではないですが、ライブラリが更新されないなら今後のメンテナンス性とかセキュリティとか懸念だなと思いました。 ちなみに、どのような文章がどのように文字化けするのか、例を質問本文に追記してもらって良いですか?
m.ts10806

2021/06/24 07:53

そのPDFがどのように作成されたかというのも気にはなっています。 プログラムから取り出せるということはちゃんとテキストが文字コード込みで指定されて生成されたと言うことですしね。無関係ではないと。
enya1010

2021/06/24 08:21

回答ありがとうございます。リンクしか貼れないみたいなので、どこかちょうどいいサンプルのPDFを探してみます。
m.ts10806

2021/06/24 11:13

回答ではなく質問への追記修正依頼です。 >リンクしか貼れないみたいなので 画像投稿機能ありますよ。「リンクの挿入」の隣です。 画面キャプチャとって投稿すれば良いかと思います。
enya1010

2021/06/25 05:17 編集

質問に追記いたしました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問