###前提・実現したいこと
C#で画像から日本語のテキストを読み取りたい(OCRしたい)。
###発生している問題
現在C#でtesseract ※1を利用しています。
こちらの jpn.traineddataは認識精度がとても悪かったので、
https://github.com/tesseract-ocr/tessdata/blob/master/jpn.traineddata
以下の記事を参考に、tesstrain.shを用いて「メイリオ(Meiryo)」だけの言語データを作成し、
OCRを行ったのですがそれでも認識精度がイマイチです。
http://qiita.com/atuyosi/items/c0933b5edf605c4a7c19
※1
NuGet - Tesseract
https://www.nuget.org/packages/Tesseract/
また、以下のように認識のホワイトリストも付け加えましたが精度は向上しませんでした。
tesseract.SetVariable("tessedit_char_whitelist", "アイウエオァィゥェォカキクケコガギグゲゴサシスセソザジズゼゾタチツテトダヂヅデドナニヌネノハヒフヘホバビブベボパピプペポマミムメモヤユヨラリルレロワヲンーabcdefghijklmnopqrtsuvwxyz");
プログラム
static string GetStringFromImage(Bitmap img) { using (var tesseract = new Tesseract.TesseractEngine(@"C:\", "jpn")) { var page = tesseract.Process(img); return page.GetText(); } }
NHocrも利用してみましたがtessract-ocrより精度が悪く実用性が感じられませんでした。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2016/09/09 17:21