質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

1回答

1479閲覧

pdfファイルをfor文を用いてtxtファイルに変換する処理を一括処理で行えるようにする方法

jesse_

総合スコア1

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2021/06/07 02:27

前提・実現したいこと

pdfというフォルダのpdfファイルを以下のコードを使ってtestというフォルダにテキストファイルに変換して保存するコードをネットで見て書きました。
これをfor文を使ってフォルダ内のすべてのpdfファイルをtxtファイルに変換するのを一括で行いたいのですが書き方がわからないので教えていただきたいです。

発生している問題・エラーメッセージ

エラーメッセージ

該当のソースコード

python

1from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter 2from pdfminer.converter import TextConverter 3from pdfminer.layout import LAParams 4from pdfminer.pdfpage import PDFPage 5import glob 6 7input_path = 'C://Users//sato//Documents//doboku2019//pdf//74-06-0001.pdf' 8output_path = 'C://Users//sato//Documents//doboku2019//test//tesuy.txt' 9 10manager = PDFResourceManager() 11with open(output_path, "wb") as output: 12 with open(input_path, 'rb') as input: 13 with TextConverter(manager, output, codec='utf-8', laparams=LAParams()) as conv: 14 interpreter = PDFPageInterpreter(manager, conv) 15 for page in PDFPage.get_pages(input): 16 interpreter.process_page(page) 17

試したこと

input_path = glob.glob('C://Users//sato//Documents//doboku2019//pdf//*.pdf')としリストを作成
output_path = 'C://Users//sato//Documents//doboku2019//test//tesuy.txt' ←の一括処理を行う場合のファイル名の指定の仕方がわかりません

また9行目以降の処理をfor文で行う時の改良の仕方を教えていただきたいです。

補足情報(FW/ツールのバージョンなど)

ここにより詳細な情報を記載してください。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

こういう質問は多いので、関数を作ってみました。
ご自身の処理を関数にして、apply_convertの第一引数に渡してみてください。

python

1def apply_convert(convfunc, input_dir, input_ext, output_ext, output_dir=None, debug=False): 2 ''' apply the convert function for each specfied file in input_dir 3 and output_dir 4 5 Parameters 6 ---------- 7 convfunc : convert function which accepts to paths 8 input_dir : directory containing input files 9 input_ext : extension which specifies the input files 10 output_ext : extension toappend the output files 11 output_dir : directory to write output files. 12 Default is None which means use the input_dir 13 debug : specifies whether print the parameters before calling convfunc 14 Default is False 15''' 16 from glob import glob 17 import os 18 19 if output_dir == None: 20 output_dir = input_dir 21 22 input_files = [os.path.abspath(s) for s 23 in glob(os.path.join(input_dir, '*.' + input_ext))] 24 input_filebodys = ['.'.join(os.path.basename(s).split('.')[:-1]) 25 for s in input_files] 26 output_files = [os.path.abspath(os.path.join(output_dir, '.'.join([s, output_ext]))) 27 for s in input_filebodys] 28 29 for infile, outfile in zip(input_files, output_files): 30 if debug: 31 print(f'input : {infile}\noutput: {outfile}') 32 convfunc(infile, outfile) 33 34if __name__ == '__main__': 35 36 def test(infile, outfile): 37 pass 38 39 apply_convert(test, '.', 'txt', 'txt2', debug=True)

投稿2021/06/07 03:53

ppaul

総合スコア24666

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問