OCRの文字認識の正誤性の向上

Question

pythonでtesseractOCRを使って、文書の読み取りを行っています。
しかし、誤認識が多く困っています。例えば廣が鷹になるなど・・・
誤認識を少なくするためになにか効果的な方法があれば教えていただけると幸いです。
機械学習などになるのでしょうか？
詳しく教えていただきたいです。

Accepted Answer

tesseract-ocr 公式サイトには[どうやって出力の正確性が向上できますかを記述してあります](https://tesseract-ocr.github.io/tessdoc/ImproveQuality)。

まとめてみますと：

- 文字を黒く、背景を白くすること
- 解像度は300dpi以上にすること
- 画像をモノクロにすること
  | OpenCV や scikit-image など他のライブラリを使って前処理をしてみましょう
- ノイズを削除すること
- ページを正しく縦にすること
- ボーダーを細くすること
- アルファチャンネルを削除すること（Ver.4 が自動的に削除します）

そういった努力を全部済んだらまだ効果に満足できないだとしたら、日本語 OCR の研究に努力しなきゃいけないです。

お役に立てると幸いです。

Answer

> しかし、誤認識が多く困っています。例えば廣が鷹になるなど・・・

tesseractOCR の認識は1文字単位でどの文字かというのを判定しているので、似ている漢字があると誤認識は一定数発生してしまいます。
これを解決するために、候補が複数ある場合は前後の文章の情報も利用して選択する自然言語処理も組み合わせたアプローチが必要になると思います。人間であれば、読みづらい文字があったとしても、それまでの文脈から判断して脳内補完するということを自然とやっていると思います。

商用の OCR ソフトだとそういうこともやっているかもしれないですが、Python の日本語対応している OCR ライブラリでそこまでやってくれるソフトはおそらくないので、自分で論文調査等して、実装までする必要があるでしょうね。

少なくとも簡単に解決できる問題ではありません。

関連した質問