固定の単語に対する手書き文字認識の精度を上げたい

発生している問題・エラーメッセージ

いぬ・うさぎ・ライオン　という三種類の単語の手書き文字のデータがそれぞれ１００個ずつある。今OCRのアルゴリズムを作り、それぞれの文字画像を読み込ませたところ、正常にいぬorうさぎorライオンと認識される他に、
・いぬ　の場合
いね、いむ、（　）ぬ・・・などと認識されることがある
・うさぎ　の場合
うきぎ、うちぎ、ウさぎ・・・などと認識されることがある
・ライオン　の場合
ライオソ、ライ才ソ、ラ人オン・・・などと認識されることがある。

試したこと

いぬのデータセットを１５０個に増やしてみたが精度があまり変わらなかった。

実現したいこと

今回、データは必ずいぬ・うさぎ・ライオンのどれかなので、1文字でもヒットしていたらその文字と認識するようにしたい。
例えば、
”い”ね・”い”む・（　）”ぬ”　と認識された　→いぬ　に変換
”う”きぎ・”う”ちぎ、ウ”さぎ”　と認識された　→うさぎ　に変換　のようにアルゴリズムを書いて変換したい。
例えばライオンの場合なら、アルゴリズム中で、ラorイorオorンの文字がないかを見て間違っていたらその文字を置き換え、というif文を思いついたが、この方法は使えないと思った。
なぜなら、今は認識したい動物の数が３種類だからこの方法も使えなくはないが、この動物の数が１００種類になった場合とかに、アルゴリズムの量が多すぎて、システムの動きがものすごく遅くなってしまうからである。

同様の処理をもっと軽量な方法で実装できないかどうかをお聞きしたい。

行動規範の内容に同意します

回答3件

ベストアンサー

動物の種類が100種類になると、読み取った単語が正解の単語群のどれに近いのかを計算すると良いと思います。処理ステップは以下の感じです。
１．あらかじめ、正解の単語をベクトル表現にしたものを準備する。
２．手書き文字を読み込み、文字認識する。　<- 既にできあがっているもの
３．項番２の結果をベクトル展開（項番１のものと比較するため、同じフォーマットにする必要あり）
４．項番３のベクトルと項番１の各単語のベクトルの類似度を計算
５．項番４が最も類似するものを正解とする。

距離計算には、いろいろあります。思いつくものをリストアップしておくので、試してください。
・ユークリッド距離（数学的な距離）
・コサイン類似度（距離の代わりに角度（コサイン）を用いたもの）
・Jaccard指数（集合としての類似度）
・レーベンシュタイン距離（正しい単語に編集するための手数）

投稿2018/03/25 18:50

R.Shigemori

総合スコア3376

kaitotokai

2018/03/26 01:08

ご丁寧な回答をありがとうございます。「いぬ」が「レ | ぬ」のように誤認識される時、文字数が増えてしまう場合もあるのですが、その場合でも読み取った単語が正解の単語群のどれに近いのかを計算という手法を使うことは可能でしょうか？

R.Shigemori

2018/03/26 03:21

正解側のベクトルを工夫することで実現可能です。単純なのは全ての誤りを含む文字を軸にしたベクトルにすることです。あるいは、読みとられるべきではないものは全て誤りとしてまとめてしまう方法もいいかもしれません。このあたりはデータをながめて決めてください

行動規範の内容に同意します

出力された文字列と正解タグの編集距離（レーベンシュタイン距離）を測り、距離が最短のものを選ぶというのが簡単でそれなりに妥当そうな方法ではないでしょうか。

投稿2018/03/25 15:39

hayataka2049

総合スコア30933

今OCRのアルゴリズムを作り、それぞれの文字画像を読み込ませたところ、

一番重要なこの部分はどうなっているのでしょうか。

1,TensorFlowのタグがついてるのが少し気になりますが、OCR全般として回答します。
既に行っていたら申し訳ないのですが、OCR認識結果を見る限りでは、入力画像からOCRの入力データにする時に、cv2.adaptiveThresholdを使ったりして、もう少しノイズが少なめの入力画像をOCRの入力データとして渡した方が良いように見受けられます。あとネガポジ反転を学習させるなど。

2,回答にあがっていなくて、使えるライブラリとしてはdifflibなど。

◇参考情報
単語（本のタイトル）がマッチしているかどうか調べたい

投稿2018/03/26 01:24