PDF上の横並び複数の表を順に抽出したい

見よう見まねでPDF上の横並び複数の表を（下記）pythonで抽出しましたが、順番があっていません。当初、ヘッダーが複数あるのでヘッダー大分類を削除したのですが、順番が元ファイルの左から数えた順番とあっていないので、誤解し易くなっています。

下記のコードではなぜこのようになるのか、もっと綺麗にするにはどう改めたらいいかをご教示頂けないでしょうか

python
1
2import pandas as pd
3import camelot
4#上記画像（表）の元PDFファイル（rank.pdf）を抽出
5tables = camelot.read_pdf('rank.pdf', pages='1', split_text=True, strip_text='\n')
6dfs = []
7
8# dataframeに変換、ヘッダー部削除、ヘッダー追加
9for table in tables:
10    df = table.df
11    df.drop(0, inplace=True)
12    df.columns = ['順位','都道府県','受診率']
13    dfs.append(df)
14
15# ページ結合
16df_black = pd.concat(dfs)
17
18#不要な行を削除
19df_black=df_black.drop(df_black.index[0])
20#出力
21df_black.to_csv('rank.csv',encoding='cp932')

行動規範の内容に同意します

回答3件

元のpdf内部の、文書としての構造と、見た目の構造が異なっているためです。

見た目の構造を把握するには、各テーブルの最初のセルの左端を手掛かりにすることができます。

camelot-pyのソース参照

table.cells[0][0].x1

下記は、各テーブルの左端の位置を元にリストdfsをソートする例です。

for table in tables:
    df = table.df
    # posという属性にtableの最初のセルの左端の座標を格納する。
    df.pos = table.cells[0][0].x1
    df.drop(0, inplace=True)
    df.columns = ['順位','都道府県','受診率']
    dfs.append(df)
# 各テーブルの左端座標を元にソートする。
dfs.sort(key=lambda x: x.pos)

投稿2021/04/02 13:18

退会済みユーザー

総合スコア0

Dantesu

2021/04/02 13:29

ありがとうございます！勉強になります。やってみます。

Dantesu

2021/04/03 02:38

私の質問の書き方が誤解を招いたようです。癌腫内での順番はあっているのですが、胃がんが最後になったり癌腫単位の順番がバラバラという意味でした。でも頂いたコードなどは私は知らない事ばかりでしたので、勉強になりました。

行動規範の内容に同意します

tabulaで解決できました。例として左から一つ目の胃がんを抽出します。
import pandas as pd
import tabula
pdf_path="https://www.pref.ibaraki.jp/hokenfukushi/yobo/sogo/yobo/cancergrop/cancer-h26/documents/rankinghyou_1.pdf"
dfs=tabula.read_pdf(pdf_path,stream=False,pages='all')
len(dfs)
Gastric cancer=dfs[0]

投稿2021/04/03 14:41

編集2021/04/03 14:44

Dantesu

総合スコア8