pdfminerでpdfのテキストを抽出したいのですが、テキスト出力できません。
実行したコードと実行結果は次のとおりです。
もしおわかりになれば問題点と、修正ポイントをご教示いただければ幸いです。
python
1from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter 2from pdfminer.converter import TextConverter 3from pdfminer.layout import LAParams 4from pdfminer.pdfpage import PDFPage 5from io import StringIO 6 7input_path = r"/〇〇/〇〇/input.pdf" 8output_path = r"/〇〇/〇〇/result.txt" 9rsrcmgr = PDFResourceManager() 10codec = 'utf-8' 11params = LAParams() 12text = "" 13with StringIO() as output: 14 device = TextConverter(rsrcmgr, output, codec=codec, laparams=params) 15 with open(input_path, 'rb') as input: 16 interpreter = PDFPageInterpreter(rsrcmgr, device) 17 for page in PDFPage.get_pages(input): 18 interpreter.process_page(page) 19 text += output.getvalue() 20 device.close() 21text = text.strip() 22with open(output_path, "wb") as f: 23 f.write(text.encode('cp932', "ignore"))
実行結果は、次のように表示され、テキストはできていませんでした。
Traceback (most recent call last): File "pdf2text.py", line 16, in <module> for page in PDFPage.get_pages(input): File "/〇〇/.pyenv/versions/3.7.3/lib/python3.7/site-packages/pdfminer/pdfpage.py", line 132, in get_pages raise PDFTextExtractionNotAllowed('Text extraction is not allowed: %r' % fp) pdfminer.pdfdocument.PDFTextExtractionNotAllowed: Text extraction is not allowed: <_io.BufferedReader name='input.pdf'>
なお、環境はpython3 MacOS10です。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/09/23 10:26