pythonでPDFをテキストマイニングする際に特異なフォーマットだとうまくいかない

例えば以下のような見開きが1ページとなっているようなPDFをpythonのPDFminerでテキストマイニングしようとすると、
図の赤線のように別のページにわたって1文のように認識されてしまいます。
これをうまく回避する方法はありませんか？

よろしくお願いいたします。

行動規範の内容に同意します

回答1件

pdfplumberでcropで範囲指定後.extract_textでテキスト取得でできる

投稿2021/02/16 13:08

総合スコア1286

2021/02/17 06:42

ありがとうございます。ちなみに、1つのPDFファイルでも見開きであったり、通常の1ページであったりが混在しているのですが、これを自動で振り分けるのは難しいですよね？

2021/02/19 02:59

最長の文字の長さがページの半分以上で振り分けれるのでは

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだベストアンサーが選ばれていません

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.30%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問をすることでしか得られない、回答やアドバイスがある。