前提・実現したいこと
pdfminerを使って、PDFファイル中のあるキーワードが含まれるページ番号を取得し、
そのページから、テキストファイルにコピーしたい。
発生している問題・エラーメッセージ
Python初心者です。PDFファイル中の内容をテキストファイルにコピーすることは、ネット上に公開されているコードでできそうですが、これは全部コピーされてしまいます。あるキーワードが含まれるページ番号を取得し、ページ番号+キーワードから後の文章だけをテキストファイルにコピーしたいです。
該当のソースコード
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
input_path = 'Report.pdf'
output_path = 'Report.txt'
manager = PDFResourceManager()
with open(output_path, "wb") as output:
with open(input_path, 'rb') as input:
…
試したこと
補足情報(FW/ツールのバージョンなど)
あなたの回答
tips
プレビュー