前提・実現したいこと
pdfminer.six付属のpdf2txt.pyを使用してpdf文書からテキスト抽出したいが、コピペが可能にも関わらずテキスト抽出できないpdfがあり困っています。
最終的な目標はhtml等の座標情報付のテキスト変換です。
発生している問題・エラーメッセージ
[テキスト抽出できない文書]
https://jicpa.or.jp/specialized_field/publication/files/2-8-82-2-120615.pdf
テキスト抽出できない。
テキスト情報のコピー&ペーストが可能なため、なぜ抽出できないかが分からない。
[テキスト抽出できる文書]
https://www.fsa.go.jp/singi/singi_kigyou/tosin/20070215.pdf
テキスト抽出できる。
該当のソースコード
https://github.com/pdfminer/pdfminer.six/blob/develop/tools/pdf2txt.py
試したこと
python pdf2txt.py 2-8-82-2-120615.pdf
→ スクリーンには空白と矢印のみ表示され、テキスト抽出できていない。
python pdf2txt.py 20070215.pdf
→ スクリーンに抽出された文書が表示され、テキスト抽出できている。
python pdf2txt.py 2-8-82-2-120615.pdf -o 2-8-82-2-120615.html
→ テキスト抽出されないhtmlが出力される。
python pdf2txt.py 20070215.pdf -o 20070215.html
→ テキスト抽出されたhtmlが出力される。
補足情報(FW/ツールのバージョンなど)
[環境]
Windows10 Pro
WSL
Ubuntu 18.04
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。