pdfminer.six付属のpdf2txt.pyを使用してpdf文書からテキスト抽出したいが、コピペが可能にも関わらずテキスト抽出できないpdfがあり困っています。

pdfminer.six付属のpdf2txt.pyを使用してpdf文書からテキスト抽出したいが、コピペが可能にも関わらずテキスト抽出できないpdfがあり困っています。
最終的な目標はhtml等の座標情報付のテキスト変換です。

[テキスト抽出できない文書]
https://jicpa.or.jp/specialized_field/publication/files/2-8-82-2-120615.pdf
テキスト抽出できない。
テキスト情報のコピー＆ペーストが可能なため、なぜ抽出できないかが分からない。

[テキスト抽出できる文書]
https://www.fsa.go.jp/singi/singi_kigyou/tosin/20070215.pdf
テキスト抽出できる。

python pdf2txt.py 2-8-82-2-120615.pdf
→　スクリーンには空白と矢印のみ表示され、テキスト抽出できていない。

python pdf2txt.py 20070215.pdf
→　スクリーンに抽出された文書が表示され、テキスト抽出できている。

python pdf2txt.py 2-8-82-2-120615.pdf -o 2-8-82-2-120615.html
→　テキスト抽出されないhtmlが出力される。

python pdf2txt.py 20070215.pdf -o 20070215.html
→　テキスト抽出されたhtmlが出力される。

[環境]
Windows10 Pro
WSL
Ubuntu 18.04

行動規範の内容に同意します

回答1件

テキスト抽出のみでいいのであればpdfboxで抽出できます。

pdf2txt.pyでは抽出できないものがあるぐらいしかわかりません。

java -jar pdfbox-app.jar ExtractText -sort -encoding UTF-8 data.pdf

投稿2020/01/15 11:40

総合スコア1286

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだベストアンサーが選ばれていません

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問