[python] pdf上の枠線が無いテーブルを読み込む方法

実現したいこと

pdf上の枠線が無いテーブルを読み込む方法、または連続するテキストとして取得する方法を教えてください。

発生している問題・分からないこと

上記のpdfから1.株式の売り出しセクションにあるテーブルを読み込みたいのですが枠線がないためかテーブルとして取得できません。
現在僕が使用しているのはtabula.ioパッケージのread_pdfです。

python
1dfs = read_pdf(hrefLink, pages=1, pandas_options={'header': None})

上記のコードでは取得されるテーブルは0個となってしまいます。

またテキストとして読み込むとページの中間で分かれている為に必要な項目(右側)がタイトル(左側)と乖離してしまいます。使用しているのはpdfminer.high_levelパッケージのextract_textです。

python
1with request.urlopen(hrefLink) as res:
2　　f = BytesIO(res.read())
3　　text = extract_text(f)

取得されたテキストの例
(1) 売出価格
(2)売出価格の総額
・
・
・
1株につき1,344円
2,946,048,000円

求める解決策としては以下のどちらかであればうれしいです。
0. テーブルとして読み込める

左右に分かれているテキストを連続した文として取得する。例：(1)売出価格1株につき1,344円

該当のソースコード

特になし

試したこと・調べたこと

teratailやGoogle等で検索した
ソースコードを自分なりに変更した
知人に聞いた
その他

上記の詳細・結果

上記記載の求める回答に該当する情報は見つかりませんでした。
tabulaのスペースに関する引数に関しても読みましたがわかる範囲では役立つ方法を見つけられませんでした。

補足

特になし

行動規範の内容に同意します

回答1件

自己解決

camelot-pyを使用する事で解決しました。
提示した2つの内「テーブルで取得する」方法で解決出来ました。
https://stackoverflow.com/questions/53209335/python-camelot-borderless-table-extraction-issue

投稿2024/08/05 02:50

編集2024/08/05 07:27

akirayoshimura

総合スコア50

meg_

2024/08/05 04:00

下記のどちらで解決されたのでしょうか？参考までにお聞きしたいです。 > 求める解決策としては以下のどちらかであればうれしいです。 > 0. テーブルとして読み込める > > 左右に分かれているテキストを連続した文として取得する。例：(1)売出価格1株につき1,344円

akirayoshimura

2024/08/05 07:27

詳細が欠けていました！テーブルで取得する事が出来ました

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.34%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

[python] pdf上の枠線が無いテーブルを読み込む方法

実現したいこと

発生している問題・分からないこと

該当のソースコード

試したこと・調べたこと

上記の詳細・結果

補足

関連した質問