質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

89.10%

OCRの文字認識の正誤性の向上

解決済

回答 2

投稿

  • 評価
  • クリップ 0
  • VIEW 157

katsumasa35

score 2

pythonでtesseractOCRを使って、文書の読み取りを行っています。
しかし、誤認識が多く困っています。例えば廣が鷹になるなど・・・
誤認識を少なくするためになにか効果的な方法があれば教えていただけると幸いです。
機械学習などになるのでしょうか?
詳しく教えていただきたいです。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • aokikenichi

    2020/07/01 12:29

    機械学習の中の深層学習のうち文字認識という研究分野です
    tsseractOCRもその技術の1つを使っているようです

    が情報が少なく答えようがありません。
    オプション設定等あるかと思いますが何か試されてますでしょうか。

    それとも別のツールに乗り換えたいとのことでしょうか。

    それともその研究分野を知りたいとのことでしょうか。

    キャンセル

  • can110

    2020/07/01 14:01

    認識対象の「文書」がどのようなものなのか、具体的に詳しく提示ください。
    ラスタ、ベクタ、画像の種類、出現する文字の種類。大きさ、それらに何らかの規則があるかなどなど。

    キャンセル

回答 2

checkベストアンサー

+2

tesseract-ocr 公式サイトにはどうやって出力の正確性が向上できますかを記述してあります

まとめてみますと:

  • 文字を黒く、背景を白くすること
  • 解像度は300dpi以上にすること
  • 画像をモノクロにすること
    | OpenCV や scikit-image など他のライブラリを使って前処理をしてみましょう
  • ノイズを削除すること
  • ページを正しく縦にすること
  • ボーダーを細くすること
  • アルファチャンネルを削除すること(Ver.4 が自動的に削除します)

そういった努力を全部済んだらまだ効果に満足できないだとしたら、日本語 OCR の研究に努力しなきゃいけないです。

お役に立てると幸いです。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

+2

しかし、誤認識が多く困っています。例えば廣が鷹になるなど・・・

tesseractOCR の認識は1文字単位でどの文字かというのを判定しているので、似ている漢字があると誤認識は一定数発生してしまいます。
これを解決するために、候補が複数ある場合は前後の文章の情報も利用して選択する自然言語処理も組み合わせたアプローチが必要になると思います。人間であれば、読みづらい文字があったとしても、それまでの文脈から判断して脳内補完するということを自然とやっていると思います。

商用の OCR ソフトだとそういうこともやっているかもしれないですが、Python の日本語対応している OCR ライブラリでそこまでやってくれるソフトはおそらくないので、自分で論文調査等して、実装までする必要があるでしょうね。

少なくとも簡単に解決できる問題ではありません。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2020/07/01 13:09

    文章ではなく、表の中の文字(名前など)を認識させたいので文章の繋がり云々がそもそもありません。その場合どうすればよいか詳しく教えていただきたいです。

    キャンセル

  • 2020/07/01 13:16 編集

    画像が質問になく、どの程度の画質なのかわからないので、一般的な回答しかできませんが、
    白背景に黒文字にする、ノイズが多いなら画像処理で除く、読み取りの用紙が傾いているなら真っ直ぐにするなど、前処理で認識しやすい形にしてから OCR に投げると改善する可能性はあります。

    参考リンク
    https://gammasoft.jp/blog/ocr-by-python/

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 89.10%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

同じタグがついた質問を見る