実現したいこと
pdf内の複数の表について、
ファイル名: PDF内にて、表の直前に太字記載のあるタイトル 中身: 1つの表のデータ
としてcsv出力したい。
実現出来ていること
以下のソースコードにて、pdf内のすべての表を別々のcsvに抽出/保存することまではできています。
python
1import pandas as pd 2import tabula 3from IPython.core.display import display 4import os 5 6def main(): 7 tables = tabula.read_pdf("xxxxxxxxxx.pdf", lattice=True, pages='all') 8 os.makedirs(".\Outputs") 9 count = 1 10 for table in tables: 11 display(table) 12 table.to_csv(f".\Outputs\Table_{count}.csv", index=None) # csv 13 count = count + 1 14 15 16if __name__ == '__main__': 17 main()
残要件
後述のpdf内の表のタイトル(直前の太字)を認識し、
csvファイル名として利用すること
元となるpdfのイメージ
XXXXXXXXXX ←この部分を表のタイトルとして個別に抽出する方法が知りたい
| データ名1 |データ1|
| データ名2 |データ2|
| データ名3 |データ3|
aaaaaaaaaaaaaaaaaaaaaaaa.
bbbbbbbbbbbbbbbbbbbbbbbb. ←無関係なテキストも大量に存在
cccccccccccccccccccccccc.
YYYYYYYYYY
| データ名1 |データ1|
| データ名2 |データ2|
| データ名3 |データ3|
出力されるcsvのイメージ
XXXXXXXXXX.csv
| データ名1 |データ1|
| データ名2 |データ2|
| データ名3 |データ3|
YYYYYYYYYY.pdf
| データ名1 |データ1|
| データ名2 |データ2|
| データ名3 |データ3|
あなたの回答
tips
プレビュー