C#で画像から日本語のテキストを読み取りたい（OCRしたい)。

###前提・実現したいこと
C#で画像から日本語のテキストを読み取りたい（OCRしたい)。

###発生している問題
現在C#でtesseract ※1を利用しています。

こちらの jpn.traineddataは認識精度がとても悪かったので、
https://github.com/tesseract-ocr/tessdata/blob/master/jpn.traineddata

以下の記事を参考に、tesstrain.shを用いて「メイリオ（Meiryo）」だけの言語データを作成し、
OCRを行ったのですがそれでも認識精度がイマイチです。
http://qiita.com/atuyosi/items/c0933b5edf605c4a7c19

↑読み取り対象の画像です。（フォントはメイリオです）

↑
tessract-ocrの実行結果

※1
NuGet - Tesseract
https://www.nuget.org/packages/Tesseract/

また、以下のように認識のホワイトリストも付け加えましたが精度は向上しませんでした。

tesseract.SetVariable("tessedit_char_whitelist", "アイウエオァィゥェォカキクケコガギグゲゴサシスセソザジズゼゾタチツテトダヂヅデドナニヌネノハヒフヘホバビブベボパピプペポマミムメモヤユヨラリルレロワヲンーabcdefghijklmnopqrtsuvwxyz");

プログラム

static string GetStringFromImage(Bitmap img)
{
    using (var tesseract = new Tesseract.TesseractEngine(@"C:\", "jpn"))
    {
        var page = tesseract.Process(img);
        return page.GetText();
    }
}

NHocrも利用してみましたがtessract-ocrより精度が悪く実用性が感じられませんでした。

行動規範の内容に同意します

回答1件

ベストアンサー

ご質問の意図は、OCRの認識精度を向上させたい、でよろしいですね。

質問文ではライブラリの話が中心になっていますが、
認識対象の画像を自前で作れる（補正できる）場合は、
精度向上の工夫の余地がたくさんあります。

OCRのアルゴリズムには、文字認識だけではなく、
文字抽出の工程もあるからです。

たとえば、画像拡大、解像度向上、ハイコントラスト化、
ノイズ除去、二値化、角度補正、……などなど。

さらに、もし対象の文章も自前で作れる場合には、
フォント、行間、字間、難読漢字の校正など、
あらかじめOCRを見すえた編集工程にします。
そもそも紙からテキストデータへの変更が可能ならします。

購入した書籍だからそれはできない……という場合が多いでしょうが、
その場合も、OCRしやすい本を買う、電子書籍を買う、洋書を買う、
という選択肢もあります。本末転倒のようですが、
目的のために手段を選ばない場合には参考までに。

そもそも、たんに実用面だけの話をすれば、
日本語は漢字の種類が多いので、いくらグーグルでもこれに関しては、
国内の市販ソフトの方が日本語読み取りの精度が高いようです。

そこをどうしてもライブラリにこだわるなら、
やはり認識前の工程でどれだけ下ごしらえできるかだと思います。

投稿2016/09/09 15:28

編集2016/09/09 16:49

LLman

総合スコア5592

aglkjggg

2016/09/09 17:21

残念ながら読み取り対象データは帰ることが不可能ですので、まずはフリーのtessractで、読み取り精度が高くなるように画像処理を加える事をトライしてみます。試しにGoogle Visionも利用してみて、精度はなかなかよかったのですが、オフラインでの動作を求めていたので今回は見送りました。 ※tessractもHPが開発したのをgoogeが引き継いだようですがどうしてもダメであれば国内が出している有償ライブラリも価格等考慮して購入を検討してみます。

行動規範の内容に同意します