環境
- Windows10
- Python3.6
- Anaconda
発生している問題
PDFMinerを使ってPDFから文章を抜き出そうとするとWarningが出ます。
Python
1from pdfminer.pdfparser import PDFParser 2from pdfminer.pdfparser import PDFDocument 3from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter 4from pdfminer.layout import LAParams 5from pdfminer.converter import PDFPageAggregator 6 7fp = open(pdf_file, 'rb') 8 9parser = PDFParser(fp) 10document = PDFDocument() 11parser.set_document(document) 12 13document.set_parser(parser) 14rsrcmgr = PDFResourceManager() 15laparams = LAParams() 16device = PDFPageAggregator(rsrcmgr, laparams=laparams) 17interpreter = PDFPageInterpreter(rsrcmgr, device) 18pages = list(document.get_pages()) 19page_1 = pages[0] 20interpreter.process_page(page_1) 21layout = device.get_result()
これを実行すると次のような警告が出ます。
Python
1WARNING:root:Cannot locate objid=725 2WARNING:root:Cannot locate objid=728 3WARNING:pdfminer.converter:undefined: <PDFType1Font: basefont='LDDDEK+MTSY'>, 2 4WARNING:pdfminer.converter:undefined: <PDFType1Font: basefont='LDDDEK+MTSY'>, 3 5WARNING:pdfminer.converter:undefined: <PDFType1Font: basefont='LDDDEK+MTSY'>, 2 6WARNING:pdfminer.converter:undefined: <PDFType1Font: basefont='LDDDEK+MTSY'>, 3 7WARNING:pdfminer.converter:undefined: <PDFType1Font: basefont='LDDDEK+MTSY'>, 2 8WARNING:pdfminer.converter:undefined: <PDFType1Font: basefont='LDDDEK+MTSY'>, 3
最初のrootに関する警告はdocument.set_parser(parser)
を実行したときに、pdfminer.converterの関する警告はinterpreter.process_page(page_1)
を実行したときに出ます。
converterに関してはこのコードではPDFPageAggregator
と定義していると思うのですが、なぜundefinedといわれるのかわかりません。
これらの警告の改善方法を教えてください。
あなたの回答
tips
プレビュー