質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
87.20%
Tesseract

Tesseractは、Googleが提供しているオープンソースのOCRエンジンです。機械学習があり60以上の言語に対応でき、日本語の文字認識も可能です。さらに精度を上げることもできます。

C#

C#はマルチパラダイムプログラミング言語の1つで、命令形・宣言型・関数型・ジェネリック型・コンポーネント指向・オブジェクティブ指向のプログラミング開発すべてに対応しています。

解決済

C#で画像から日本語のテキストを読み取りたい(OCRしたい)。

aglkjggg
aglkjggg

総合スコア769

Tesseract

Tesseractは、Googleが提供しているオープンソースのOCRエンジンです。機械学習があり60以上の言語に対応でき、日本語の文字認識も可能です。さらに精度を上げることもできます。

C#

C#はマルチパラダイムプログラミング言語の1つで、命令形・宣言型・関数型・ジェネリック型・コンポーネント指向・オブジェクティブ指向のプログラミング開発すべてに対応しています。

1回答

0評価

1クリップ

13388閲覧

投稿2016/09/09 14:08

編集2016/09/12 09:00

###前提・実現したいこと
C#で画像から日本語のテキストを読み取りたい(OCRしたい)。

###発生している問題
現在C#でtesseract ※1を利用しています。

こちらの jpn.traineddataは認識精度がとても悪かったので、
https://github.com/tesseract-ocr/tessdata/blob/master/jpn.traineddata

以下の記事を参考に、tesstrain.shを用いて「メイリオ(Meiryo)」だけの言語データを作成し、
OCRを行ったのですがそれでも認識精度がイマイチです。
http://qiita.com/atuyosi/items/c0933b5edf605c4a7c19

イメージ説明
↑読み取り対象の画像です。(フォントはメイリオです)

イメージ説明

tessract-ocrの実行結果

※1
NuGet - Tesseract
https://www.nuget.org/packages/Tesseract/

また、以下のように認識のホワイトリストも付け加えましたが精度は向上しませんでした。

tesseract.SetVariable("tessedit_char_whitelist", "アイウエオァィゥェォカキクケコガギグゲゴサシスセソザジズゼゾタチツテトダヂヅデドナニヌネノハヒフヘホバビブベボパピプペポマミムメモヤユヨラリルレロワヲンーabcdefghijklmnopqrtsuvwxyz");

プログラム

static string GetStringFromImage(Bitmap img) { using (var tesseract = new Tesseract.TesseractEngine(@"C:\", "jpn")) { var page = tesseract.Process(img); return page.GetText(); } }

NHocrも利用してみましたがtessract-ocrより精度が悪く実用性が感じられませんでした。

良い質問の評価を上げる

以下のような質問は評価を上げましょう

  • 質問内容が明確
  • 自分も答えを知りたい
  • 質問者以外のユーザにも役立つ

評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

  • プログラミングに関係のない質問
  • やってほしいことだけを記載した丸投げの質問
  • 問題・課題が含まれていない質問
  • 意図的に内容が抹消された質問
  • 過去に投稿した質問と同じ内容の質問
  • 広告と受け取られるような投稿

評価を下げると、トップページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

まだ回答がついていません

会員登録して回答してみよう

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
87.20%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る

Tesseract

Tesseractは、Googleが提供しているオープンソースのOCRエンジンです。機械学習があり60以上の言語に対応でき、日本語の文字認識も可能です。さらに精度を上げることもできます。

C#

C#はマルチパラダイムプログラミング言語の1つで、命令形・宣言型・関数型・ジェネリック型・コンポーネント指向・オブジェクティブ指向のプログラミング開発すべてに対応しています。