質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Windows 10

Windows 10は、マイクロソフト社がリリースしたOSです。Modern UIを標準画面にした8.1から、10では再びデスクトップ主体に戻され、UIも変更されています。PCやスマホ、タブレットなど様々なデバイスに幅広く対応していることが特徴です。

PDF

PDF(Portable Document Format)とはISOによって国際標準として制定されている電子ドキュメント用の拡張子です。

Ubuntu

Ubuntuは、Debian GNU/Linuxを基盤としたフリーのオペレーティングシステムです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

1回答

4111閲覧

pdfminer.six付属のpdf2txt.pyを使用してpdf文書からテキスト抽出したいが、コピペが可能にも関わらずテキスト抽出できないpdfがあり困っています。

kumataro_

総合スコア5

Windows 10

Windows 10は、マイクロソフト社がリリースしたOSです。Modern UIを標準画面にした8.1から、10では再びデスクトップ主体に戻され、UIも変更されています。PCやスマホ、タブレットなど様々なデバイスに幅広く対応していることが特徴です。

PDF

PDF(Portable Document Format)とはISOによって国際標準として制定されている電子ドキュメント用の拡張子です。

Ubuntu

Ubuntuは、Debian GNU/Linuxを基盤としたフリーのオペレーティングシステムです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

1クリップ

投稿2020/01/15 08:55

前提・実現したいこと

pdfminer.six付属のpdf2txt.pyを使用してpdf文書からテキスト抽出したいが、コピペが可能にも関わらずテキスト抽出できないpdfがあり困っています。
最終的な目標はhtml等の座標情報付のテキスト変換です。

発生している問題・エラーメッセージ

[テキスト抽出できない文書]
https://jicpa.or.jp/specialized_field/publication/files/2-8-82-2-120615.pdf
テキスト抽出できない。
テキスト情報のコピー&ペーストが可能なため、なぜ抽出できないかが分からない。

[テキスト抽出できる文書]
https://www.fsa.go.jp/singi/singi_kigyou/tosin/20070215.pdf
テキスト抽出できる。

該当のソースコード

https://github.com/pdfminer/pdfminer.six/blob/develop/tools/pdf2txt.py

試したこと

python pdf2txt.py 2-8-82-2-120615.pdf
→ スクリーンには空白と矢印のみ表示され、テキスト抽出できていない。

python pdf2txt.py 20070215.pdf
→ スクリーンに抽出された文書が表示され、テキスト抽出できている。

python pdf2txt.py 2-8-82-2-120615.pdf -o 2-8-82-2-120615.html
→ テキスト抽出されないhtmlが出力される。

python pdf2txt.py 20070215.pdf -o 20070215.html
→ テキスト抽出されたhtmlが出力される。

補足情報(FW/ツールのバージョンなど)

[環境]
Windows10 Pro
WSL
Ubuntu 18.04

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

テキスト抽出のみでいいのであればpdfboxで抽出できます。

pdf2txt.pyでは抽出できないものがあるぐらいしかわかりません。

wget https://www-eu.apache.org/dist/pdfbox/2.0.18/pdfbox-app-2.0.18.jar -O pdfbox-app.jar

wget https://jicpa.or.jp/specialized_field/publication/files/2-8-82-2-120615.pdf -O data.pdf

java -jar pdfbox-app.jar ExtractText -sort -encoding UTF-8 data.pdf

投稿2020/01/15 11:40

barobaro

総合スコア1286

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問