表形式のpdfをテキスト化

前提

pythonでスクレイピングによってサイトから持ってきたpdfの表形式をテキスト化しエクセルに出力を自動で行うシステムを作成しています。

発生している問題・エラーメッセージ

以下のコードを実行すると

dfs = tabula.read_pdf(f"/Users/kentaro/Desktop/PYTHONSYSTEM/圭吾案件/JAPANESEYENTIBOR230105.pdf",lattice=False,pages='all')
print(dfs)
for df in dfs:
# カラム名の名前を付ける
  df["Tibor"] = df["1WEEK"] * 1000
  df=df.rename(columns={"Unnamed: 0":"日付"})
  print(df)

以下のエラーコードが出ました。

エラーメッセージ
name 'df' is not defined

試したこと

pdfのデータがその月の初旬だとデータが少ないせいかうまく読み込めません。
JAPANESEYENTIBOR230105.pdfではなく下旬あたりの221227などの下旬あたりのデータを持ってくるとデータもしっかりあるためか上記のエラーは出ずにしっかり読み込むことができました。

初旬のデータで試したことは、read_pdfのパラメータlatticeをstreamに変えるなどして試したのですがうまくいきませんでした。

以下に扱ったpdfの写真を共有します。

↑テキストかできなかったpdf

↑テキスト化できたpdf
何かいい方法があれば教えていただきたいです。
よろしくお願い致します。

行動規範の内容に同意します

回答1件

ベストアンサー

camelotだとうまく取得できそうです。
表の範囲や列位置などいろいろ調整して取得できます。
詳細はAdvanced Usageを参照ください。

Python
1import camelot
2import matplotlib.pyplot as plt
3
4path = 'JAPANESEYENTIBOR230105.pdf'
5#path = 'JAPANESEYEN20142.pdf'
6
7table_areas = ['0,500,800,0']
8columns = ['105,160,215,270,325,380,430,485,540,595,645,700,750']
9tables = camelot.read_pdf(path, flavor='stream', table_areas=table_areas, columns=columns, split_text=True)
10
11if len(tables):
12    tbl = tables[0]
13    print(tbl.df)
14    print(tbl.df.to_markdown())
15    #fig = camelot.plot(tbl, kind='textedge')
16    #plt.show()

	0	1	2	3	4	5	6	7	8	9	10	11	12	13
0		1WEEK	1MONTH	2MONTH	3MONTH	4MONTH	5MONTH	6MONTH	7MONTH	8MONTH	9MONTH	10MONTH	11MONTH	12MONTH
1	2023/01/05	-0.04545	0.06818		0.06364			0.13818						0.20545
2	2023/01/04	-0.04545	0.06818		0.06364			0.14364						0.20273