質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
C#

C#はマルチパラダイムプログラミング言語の1つで、命令形・宣言型・関数型・ジェネリック型・コンポーネント指向・オブジェクティブ指向のプログラミング開発すべてに対応しています。

Windows

Windowsは、マイクロソフト社が開発したオペレーティングシステムです。当初は、MS-DOSに変わるOSとして開発されました。 GUIを採用し、主にインテル系のCPUを搭載したコンピューターで動作します。Windows系OSのシェアは、90%を超えるといわれています。 パソコン用以外に、POSシステムやスマートフォンなどの携帯端末用、サーバ用のOSもあります。

Q&A

0回答

8626閲覧

tesseract-OCRで学習データの追加

退会済みユーザー

退会済みユーザー

総合スコア0

C#

C#はマルチパラダイムプログラミング言語の1つで、命令形・宣言型・関数型・ジェネリック型・コンポーネント指向・オブジェクティブ指向のプログラミング開発すべてに対応しています。

Windows

Windowsは、マイクロソフト社が開発したオペレーティングシステムです。当初は、MS-DOSに変わるOSとして開発されました。 GUIを採用し、主にインテル系のCPUを搭載したコンピューターで動作します。Windows系OSのシェアは、90%を超えるといわれています。 パソコン用以外に、POSシステムやスマートフォンなどの携帯端末用、サーバ用のOSもあります。

0グッド

0クリップ

投稿2016/07/07 04:38

C#にてOCRの機能を実現させようとしてtesseract-OCRに取り組んでいます。

OCRの組み込みは下記ページを参照に一応動作するようになりました。

http://shirakamisauto.hatenablog.com/entry/2016/01/28/121402

ただ、文字の認識率がまだまだなので下記ページを参照に文字認識のデータである”traineddata”を作成しました。

http://hadashi-gensan.hatenablog.com/entry/2014/01/15/135316

ここで作成したデータは認識できない文字をいくつか学習させたものでオリジナルの”traineddata”と置き換えるとたしかに認識してくれます。
ただ、あたりまえなのですがこの新しい”traineddata”に入っていない文字は認識してくれません。そこで従来の”traineddata”に新しく学習させたデータを追加して一つの”traineddata”としたいのです。

ネットを色々調べていたら下記のような記事が見つかりました。

====ここから引用

生成されたファイルがトレーニングデータとなる。jpn.traineddata は元々存在した jpn.traineddata を上書きしないよう jpn1.traineddata という名前に変更して、tessdata フォルダに置く。

プログラムから使う場合、以下のようにする。ちなみに Init メソッドの最初の引数は tessdata フォルダを指すが、tesseract-ocr をインストールしたことによりわざわざ指定する必要がなくなったため、NULLにしてある。
tesseract::TessBaseAPI tess;
tess.Init(NULL, "jpn1+jpn");

http://freed411.doorblog.jp/archives/cat_1270225.html

=====ここまで引用

このような方法でやれば両方の”traineddata”を参照できるらしい(まだ自分では確認はできていない)ですけど、この方法ですと学習を重ねていくとファイルが次々と増えていきます。

そこでこの”traineddata”を一つのファイルにまとめる方法をご存じの方はぜひご教授をお願いします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問