実現したいこと
pdf上の枠線が無いテーブルを読み込む方法、または連続するテキストとして取得する方法を教えてください。
発生している問題・分からないこと
上記のpdfから1.株式の売り出しセクションにあるテーブルを読み込みたいのですが枠線がないためかテーブルとして取得できません。
現在僕が使用しているのはtabula.ioパッケージのread_pdfです。
python
1dfs = read_pdf(hrefLink, pages=1, pandas_options={'header': None})
上記のコードでは取得されるテーブルは0個となってしまいます。
またテキストとして読み込むとページの中間で分かれている為に必要な項目(右側)がタイトル(左側)と乖離してしまいます。使用しているのはpdfminer.high_levelパッケージのextract_textです。
python
1with request.urlopen(hrefLink) as res: 2 f = BytesIO(res.read()) 3 text = extract_text(f)
取得されたテキストの例
(1) 売出価格
(2)売出価格の総額
・
・
・
1株につき1,344円
2,946,048,000円
求める解決策としては以下のどちらかであればうれしいです。
0. テーブルとして読み込める
- 左右に分かれているテキストを連続した文として取得する。例:(1)売出価格1株につき1,344円
該当のソースコード
特になし
試したこと・調べたこと
- teratailやGoogle等で検索した
- ソースコードを自分なりに変更した
- 知人に聞いた
- その他
上記の詳細・結果
上記記載の求める回答に該当する情報は見つかりませんでした。
tabulaのスペースに関する引数に関しても読みましたがわかる範囲では役立つ方法を見つけられませんでした。
補足
特になし
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2024/08/05 04:00
2024/08/05 07:27