#実現したいこと
ネットに落ちているコードを基に、pdfminerを使ってpdfの内容をスクレイピングするコードを書きました。こちらはworkしています。
一方で、特定の箇所のみスクレイピングしたい場合は最後のソースコードをどのように修正したら良いでしょうか?
初歩的な質問で恐縮ですが、ご教示頂けると助かります。
なお、windows7、python3.6.1を使用しています。
pdfはこちら↓
http://www.am-one.co.jp/pdf/report/2760/20170830JSMarketDaily.pdf
LTTextBoxHorizontal(67)、(68)、(69)のテキスト内容のみ取得したいです。
#コード
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfparser import PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfparser import PDFPage
from pdfminer.pdfdevice import PDFDevice
from pdfminer.converter import PDFPageAggregator
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.layout import LTTextBoxHorizontal
fp = open(PDF_file, 'rb')
parser = PDFParser(fp)
document = PDFDocument()
parser.set_document(document)
password=""
document.set_parser(parser)
document.initialize(password)
rsrcmgr = PDFResourceManager()
laparams = LAParams()
device = PDFPageAggregator(rsrcmgr, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)
pages = list(document.get_pages())
page_1 = pages[0]
interpreter.process_page(page_1)
layout = device.get_result()
for l in layout:
if isinstance(l, LTTextBoxHorizontal):
print(l.get_text())
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2017/08/30 06:56
2017/08/30 07:03
2017/08/30 07:56
2017/08/30 08:58
2017/09/01 02:27
2017/09/01 05:34
2017/09/02 14:28