Pythonでフォルダ内にあるpdfファイルのテキストを抽出したいのですが、
以下のコードでは、どのpdfファイルのテキストデータも取ってくることができません。ですので、以下のコードのどの部分に問題があるのか教えて頂けますと幸いです。何卒よろしくお願い致します。
Python
1from pdfminer.pdfparser import PDFParser 2from pdfminer.pdfdocument import PDFDocument 3from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter 4from pdfminer.converter import TextConverter 5from pdfminer.pdfpage import PDFPage 6import csv 7import io 8import os 9import glob 10 11retstr = io.StringIO() 12csvList = [] 13files = [] 14files.append("C:/Users/ymats/OneDrive/デスクトップ/pdf Python") 15 16def pdf_mine(): 17 for i in files: 18 try: 19 parser = PDFParser(open('i','rb')) 20 doc = PDFDocument(parser) 21 parser.set_document(doc) 22 file_name = i 23 rsrcmgr = PDFResourceManager() 24 device = TextConverter(rsrcmgr, retstr) 25 interpreter = PDFPageInterpreter(rsrcmgr, device) 26 27 for page in PDFPage.create_pages(doc): 28 interpreter.process_page(page) 29 30 device.close() 31 result = retstr.getvalue() 32 retstr.close() 33 csvList.append([result]) 34 35 with open("C:/Users/ymats/OneDrive/デスクトップ/pdf Python","i.csv""r",encoding="UTF-8",) as f: 36 csv.writer(f).writerows(csvList) 37 except Exception as e: 38 print('is not a readable pdf') 39 40pdf_mine() 41 42実行結果 43is not a readable pdf
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2021/09/30 04:15