質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

87.60%

特定のフォルダ以下のすべてのPDFファイル(テーブル部のみ)をCSVで出力したい。

解決済

回答 2

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 3,436

score 54

『やりたいこと』
特定のフォルダ以下のフォルダのPDFファイルすべてについて、
テーブル部分のみ抽出してPDF化したいと考えております。

『やってみたこと』
ネットで調べたら,tabula-pyという、PDFのテーブル部分を
データフレームに変換するライブラリがありましたので
下記ソースコードを試しに書いて、再帰的にCSVファイルを
出力しようとしましたが、下記エラーが出てしまいます。
一応csvファイルはできるときもあるのですが、フォルダ構成によって途中で
止まってしまうなどしてしまいます。
試行錯誤してみましたが、一向に解決できないので、どなたかもしよろしければ
ご教示いただけないでしょうか。

『環境』
Anaconda 5.0
tabula-py 1.0.0

------------------------ソースコード---------------------------
from tabula import read_pdf
import codecs
import os

def find_all_files(directory):
for root, dirs, files in os.walk(directory):
yield root
for file in files:
yield os.path.join(root, file)

tmp_path = os.getcwd().replace('/', os.sep)

for file in find_all_files(tmp_path):
if(file.find('.pdf')>-1):
df = read_pdf(file, guess=False, encoding='cp932', pandas_options={'header':None})
df.to_csv(file+".csv")


エラー:
CalledProcessError: Command '['java', '-jar', 'C:\\ProgramData\\Anaconda3\\lib\\site-packages\\tabula\\tabula-1.0.1-jar-with-dependencies.jar', '--pages', '1', 'C:\\py_Sample\\pdf2csv\\hoge\\bbb\\ほげ2.pdf.csv']' returned non-zero exit status 1.

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

+1

windosw上にいれたAnacondaでしょうか?
それともLinuxにいれたAnacondaでしょうか?

もしWindowsでしたら
tmp_path = os.getcwd().replace('/', os.sep)
のos.sepは¥ですのでその設定をしてみてください。
('/'はLinuxです)

またデータファイルの場所の読み書権限はあるか確認してください。
多分できるときもあるからいいとおもいますが?

Command '['java', '-jar', 'C:¥¥ProgramData¥¥Anaconda3 。。。
からWindowsですよね

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/02/21 21:18 編集

    ご回答ありがとうございます。すみません。ご指摘の通り、Windows環境です(Windows10)。
    ¥に相当するバックスラッシュを入れたのですが(\をjupyterにコピペしたらバックスラッシュになりました)、
    下記エラーが出ました。
    権限は、普通のフォルダなのでフルアクセスです。
    File "<ipython-input-4-ed226e6d960b>", line 1
    tmp_path = os.getcwd().replace('\', os.sep)
    ^
    SyntaxError: EOL while scanning string literal

    キャンセル

  • 2018/02/22 11:47

    細かいとこまで説明してませんでしたね
    そもそも \ はエスケープ文字なので 2個入れないと 機能しません。
    また エラーは とじられていない(括弧やセパレータの個数があわない)
    の意味です。

    キャンセル

  • 2018/02/22 15:06

    windows上での違いで検索して参考にしてください。
    http://d.hatena.ne.jp/hidehara/20131018/1382088628

    https://docs.python.jp/3.3/library/os.html#os.sep

    os.sep
    パス名を要素に分割するためにオペレーティングシステムで利用されている文字です。例えば POSIX では '/' で、Windowsでは '\\' です。しかし、このことを知っているだけではパス名を解析したり、パス名同士を結合したりするには不十分です — こうした操作には os.path.split() や os.path.join() を使用してください

    キャンセル

  • 2018/02/27 22:32

    なるほど。エラーの意味がやっと分かりました。ご説明ありがとうございます!

    キャンセル

check解決した方法

0

すみません。自己解決しました。CSVを作成した時、ファイル名にPDFが残っており、
PDFじゃないファイルに対してtabula_Pyが動作してエラーを出していたようです。
下記のコードで、拡張子とファイルをぱーすして、拡張子に対してPDF判定すれば正常動作しました。

for file in find_all_files(tmp_path):
name, ext = os.path.splitext(file)
if(ext.find('.pdf')>-1):
print(file)
df = read_pdf(file, guess=False, encoding='cp932', pandas_options={'header':None}, pages='all')
df.to_csv(file+".csv")

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/02/22 11:53

    file.endswith(".pdf")という方法もあります。ご参考までに。

    キャンセル

  • 2018/02/27 22:30

    ありがとうございます!

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 87.60%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る