質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.37%
PDF

PDF(Portable Document Format)とはISOによって国際標準として制定されている電子ドキュメント用の拡張子です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

352閲覧

[python] pdf上の枠線が無いテーブルを読み込む方法

akirayoshimura

総合スコア50

PDF

PDF(Portable Document Format)とはISOによって国際標準として制定されている電子ドキュメント用の拡張子です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

1クリップ

投稿2024/08/04 02:19

実現したいこと

pdf上の枠線が無いテーブルを読み込む方法、または連続するテキストとして取得する方法を教えてください。

発生している問題・分からないこと

イメージ説明
上記のpdfから1.株式の売り出しセクションにあるテーブルを読み込みたいのですが枠線がないためかテーブルとして取得できません。
現在僕が使用しているのはtabula.ioパッケージのread_pdfです。

python

1dfs = read_pdf(hrefLink, pages=1, pandas_options={'header': None})

上記のコードでは取得されるテーブルは0個となってしまいます。

またテキストとして読み込むとページの中間で分かれている為に必要な項目(右側)がタイトル(左側)と乖離してしまいます。使用しているのはpdfminer.high_levelパッケージのextract_textです。

python

1with request.urlopen(hrefLink) as res: 2  f = BytesIO(res.read()) 3  text = extract_text(f)

取得されたテキストの例
(1) 売出価格
(2)売出価格の総額



1株につき1,344円
2,946,048,000円

求める解決策としては以下のどちらかであればうれしいです。
0. テーブルとして読み込める

  1. 左右に分かれているテキストを連続した文として取得する。例:(1)売出価格1株につき1,344円

該当のソースコード

特になし

試したこと・調べたこと

  • teratailやGoogle等で検索した
  • ソースコードを自分なりに変更した
  • 知人に聞いた
  • その他
上記の詳細・結果

上記記載の求める回答に該当する情報は見つかりませんでした。
tabulaのスペースに関する引数に関しても読みましたがわかる範囲では役立つ方法を見つけられませんでした。

補足

特になし

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

自己解決

camelot-pyを使用する事で解決しました。
提示した2つの内「テーブルで取得する」方法で解決出来ました。
https://stackoverflow.com/questions/53209335/python-camelot-borderless-table-extraction-issue

投稿2024/08/05 02:50

編集2024/08/05 07:27
akirayoshimura

総合スコア50

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

meg_

2024/08/05 04:00

下記のどちらで解決されたのでしょうか?参考までにお聞きしたいです。 > 求める解決策としては以下のどちらかであればうれしいです。 > 0. テーブルとして読み込める > > 左右に分かれているテキストを連続した文として取得する。例:(1)売出価格1株につき1,344円
akirayoshimura

2024/08/05 07:27

詳細が欠けていました!テーブルで取得する事が出来ました
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.37%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問