C#で画像から日本語のテキストを読み取りたい（OCRしたい)。

Question

###前提・実現したいこと
C#で画像から日本語のテキストを読み取りたい（OCRしたい)。

###発生している問題
現在C#でtesseract ※1を利用しています。

こちらの jpn.traineddataは認識精度がとても悪かったので、
[https://github.com/tesseract-ocr/tessdata/blob/master/jpn.traineddata](https://github.com/tesseract-ocr/tessdata/blob/master/jpn.traineddata)

以下の記事を参考に、tesstrain.shを用いて「メイリオ（Meiryo）」だけの言語データを作成し、
OCRを行ったのですがそれでも認識精度がイマイチです。
[http://qiita.com/atuyosi/items/c0933b5edf605c4a7c19](http://qiita.com/atuyosi/items/c0933b5edf605c4a7c19)

![イメージ説明](0e4868fb9ea9fb7452f2c670d686b4e0.png)
↑読み取り対象の画像です。（フォントはメイリオです）


![イメージ説明](5e028dc5c07fcea9e401c0b2c2da6d0b.png)
↑
tessract-ocrの実行結果

※1
NuGet - Tesseract
[https://www.nuget.org/packages/Tesseract/](https://www.nuget.org/packages/Tesseract/)

また、以下のように認識のホワイトリストも付け加えましたが精度は向上しませんでした。
```
tesseract.SetVariable("tessedit_char_whitelist", "アイウエオァィゥェォカキクケコガギグゲゴサシスセソザジズゼゾタチツテトダヂヅデドナニヌネノハヒフヘホバビブベボパピプペポマミムメモヤユヨラリルレロワヲンーabcdefghijklmnopqrtsuvwxyz");
```

### プログラム
```
static string GetStringFromImage(Bitmap img)
{
    using (var tesseract = new Tesseract.TesseractEngine(@"C:\", "jpn"))
    {
        var page = tesseract.Process(img);
        return page.GetText();
    }
}
```

NHocrも利用してみましたがtessract-ocrより精度が悪く実用性が感じられませんでした。

Accepted Answer

ご質問の意図は、OCRの認識精度を向上させたい、でよろしいですね。

質問文ではライブラリの話が中心になっていますが、
認識対象の画像を自前で作れる（補正できる）場合は、
精度向上の工夫の余地がたくさんあります。

OCRのアルゴリズムには、文字認識だけではなく、
文字抽出の工程もあるからです。

たとえば、画像拡大、解像度向上、ハイコントラスト化、
ノイズ除去、二値化、角度補正、……などなど。

さらに、もし対象の文章も自前で作れる場合には、
フォント、行間、字間、難読漢字の校正など、
あらかじめOCRを見すえた編集工程にします。
そもそも紙からテキストデータへの変更が可能ならします。

購入した書籍だからそれはできない……という場合が多いでしょうが、
その場合も、OCRしやすい本を買う、電子書籍を買う、洋書を買う、
という選択肢もあります。本末転倒のようですが、
目的のために手段を選ばない場合には参考までに。

そもそも、たんに実用面だけの話をすれば、
日本語は漢字の種類が多いので、いくらグーグルでもこれに関しては、
国内の市販ソフトの方が日本語読み取りの精度が高いようです。

そこをどうしてもライブラリにこだわるなら、
やはり認識前の工程でどれだけ下ごしらえできるかだと思います。

プログラム

関連した質問