集めた画像から文字を検索し該当する文字のある画像を摘出するプログラムの作り方を教えて欲しいです

前提・実現したいこと

必要なライブラリや手順を教えて欲しいです。

試したこと

tesseractは入れました。

行動規範の内容に同意します

回答1件

ベストアンサー

こんにちは，先日はお世話になりました．

私も趣味で？ちょうど似たような画像処理アルゴリズムを組んでいるのですが，出力形式はトリミング済み画像ファイルだとして，入力形式がかなり重要となります．
私の場合は文字埋め込みPDF→トリミング済みjpgだったので，かなり色々と選択肢がありました．

結果から申しますと，Tesseractでは精度が90%を超えてこなかったため，以下の手順を踏みました．
①pdfminerとpdf2imageをインポート
②pdf2imageで入力pdfの{pdfname}_{page_no}.jpgを作成，保存
③pdfminerで各ページをマイニング
④ページ処理後にすべての単語を検出し，文字情報(str)と座標(float)を単語毎にリストで取得できる．
⑤すべてのページ内リストに対して.startswithメソッドなどで検索をかけて目的の座標を取得
⑥取得した座標をもとに②で作成したjpgに対してファイル名から読み込み，座標指定をかけてトリミング

という手順を踏みました．ペタペタ打ってると400行超えました．
注意すべきは⑥に関してpdfminerは左下を原点にとるxy座標系であることでしょうか．
また，jpg作成の時点でのdpi値等の指定次第で座標が合わないことが考えられますが，相似系なので相似比をwidthなどから取得して計算できます．

文字認識は経験上，機械学習を前提とした精度なのでお望みの検出ができない可能性が高いです．

開示できる詳細があるならご提示いただけると，もう少し具体的に提案できるかと思います，
ご一考くださいませ．

投稿2020/06/25 22:34