『やりたいこと』
特定のフォルダ以下のフォルダのPDFファイルすべてについて、
テーブル部分のみ抽出してPDF化したいと考えております。
『やってみたこと』
ネットで調べたら,tabula-pyという、PDFのテーブル部分を
データフレームに変換するライブラリがありましたので
下記ソースコードを試しに書いて、再帰的にCSVファイルを
出力しようとしましたが、下記エラーが出てしまいます。
一応csvファイルはできるときもあるのですが、フォルダ構成によって途中で
止まってしまうなどしてしまいます。
試行錯誤してみましたが、一向に解決できないので、どなたかもしよろしければ
ご教示いただけないでしょうか。
『環境』
Anaconda 5.0
tabula-py 1.0.0
------------------------ソースコード---------------------------
from tabula import read_pdf
import codecs
import os
def find_all_files(directory):
for root, dirs, files in os.walk(directory):
yield root
for file in files:
yield os.path.join(root, file)
tmp_path = os.getcwd().replace('/', os.sep)
for file in find_all_files(tmp_path):
if(file.find('.pdf')>-1):
df = read_pdf(file, guess=False, encoding='cp932', pandas_options={'header':None})
df.to_csv(file+".csv")
エラー:
CalledProcessError: Command '['java', '-jar', 'C:\ProgramData\Anaconda3\lib\site-packages\tabula\tabula-1.0.1-jar-with-dependencies.jar', '--pages', '1', 'C:\py_Sample\pdf2csv\hoge\bbb\ほげ2.pdf.csv']' returned non-zero exit status 1.
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/02/21 12:19 編集
2018/02/22 02:47
2018/02/22 06:06
2018/02/27 13:32