前提・実現したいこと
必要なライブラリや手順を教えて欲しいです。
試したこと
tesseractは入れました。
気になる質問をクリップする
クリップした質問は、後からいつでもMYページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
回答1件
0
ベストアンサー
こんにちは,先日はお世話になりました.
私も趣味で?ちょうど似たような画像処理アルゴリズムを組んでいるのですが,出力形式はトリミング済み画像ファイルだとして,入力形式がかなり重要となります.
私の場合は文字埋め込みPDF→トリミング済みjpgだったので,かなり色々と選択肢がありました.
結果から申しますと,Tesseractでは精度が90%を超えてこなかったため,以下の手順を踏みました.
①pdfminerとpdf2imageをインポート
②pdf2imageで入力pdfの{pdfname}_{page_no}.jpgを作成,保存
③pdfminerで各ページをマイニング
④ページ処理後にすべての単語を検出し,文字情報(str)と座標(float)を単語毎にリストで取得できる.
⑤すべてのページ内リストに対して.startswithメソッドなどで検索をかけて目的の座標を取得
⑥取得した座標をもとに②で作成したjpgに対してファイル名から読み込み,座標指定をかけてトリミング
という手順を踏みました.ペタペタ打ってると400行超えました.
注意すべきは⑥に関してpdfminerは左下を原点にとるxy座標系であることでしょうか.
また,jpg作成の時点でのdpi値等の指定次第で座標が合わないことが考えられますが,相似系なので相似比をwidthなどから取得して計算できます.
文字認識は経験上,機械学習を前提とした精度なのでお望みの検出ができない可能性が高いです.
開示できる詳細があるならご提示いただけると,もう少し具体的に提案できるかと思います,
ご一考くださいませ.
投稿2020/06/25 22:34
総合スコア70
あなたの回答
tips
太字
斜体
打ち消し線
見出し
引用テキストの挿入
コードの挿入
リンクの挿入
リストの挿入
番号リストの挿入
表の挿入
水平線の挿入
プレビュー
質問の解決につながる回答をしましょう。 サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。 また、読む側のことを考えた、分かりやすい文章を心がけましょう。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。