深層学習はどれぐらいの認識分解能を持っているのでしょうか

よく見られるMNISTでの実験だと数字ばかりなので、実用的にならないではと思います。
応用において英数字混在する場面が多いし、
どの文字もある程度の変形がします。
このような時、下記のような文字同士を深層学習で区別できるのでしょうか。
"8"と"B"；
"1"と"l";
"0"と"O"と"o","D";
"R"と"P";
"6"と"G";
"m"と"M";
"2"と"Z"と"z"

ご教授いただければ幸いと思います。

行動規範の内容に同意します

回答2件

深層学習で区別できるのでしょうか

「"8"と"B"」のような似た文字は、
区別できる場合とできない場合があります。

要は、精度をどこまで追求するかという話になりますが、
最近の文字認識は正解率99％以上を達成しているので、
実用に耐えられると考えても良いと思います。

できない場合に「人間でもできない場合」は、
記号の認識限界だから仕様がないでしょう。
（人間の判断と一致するか、というと微妙なズレはありますが）

数字ばかりなので、実用的にならない

深層学習の話題を離れますが、これは少し大ざっぱな話です。

実際にたとえば、郵便はがきは区分機で、
郵便番号を自動で読み取られているんです。

そういう数字だけでも実用になる場面がありますし、
フォーマットの設計で工夫できる場面もあります。

工業規格でそういう工夫がしてあるものがあります。
たとえば、カンヅメの印字には規格があります。

もっと言えば、バーコードやマークシートみたいに、
機械が読み取りやすい形にしてもいいわけです。

あるいは、（公開鍵）暗号でも、「ゼロとオー」とか、
似ている文字は使わない、といったルールもあります。

だから、フォーマットを自由に設計できる場合には、
書類に何かの型番みたいな番号を書くとしたら、
「英語－数字」みたいに順番を決めておくとか。

機械学習、もっと言えばデジタルな部分だけにこだわらず、
「枯れた技術の水平思考」というか、
そういうアナログな部分の工夫も大事です。

投稿2017/12/15 17:51

LLman

総合スコア5592

oookabe

2017/12/18 12:57

早速お返答ありがとうございます。＞最近の文字認識は正解率99％以上を達成しているので、実用に耐えられると考えても良いと思います。これは文字セットによるではと思います。例えば、もしtraining用の文字セットに8とB, 0とOを同じ文字と定義され、trainingとテストを行えば、当然正確に認識率が上がると思いますが、知りたいのは8とB, 0とOを「異なる文字」として定義されている場合はどうなるのでしょう。当然SEMI規格のように似ている英数字同士を新規フォントに置き換えられたのも一つの手ですが、それは論外です。あくまでもdeep learninig(eg., deep CNN)の分解能を知りたいです。 Iと1 、0 とO、8とBのような微妙な差のある文字同士に関してdeep learninigでやろうとしたら、理論上分別できるかどうかという質問です。どうぞ宜しくお願い致します。

LLman

2017/12/18 13:37

文字認識はCNNで終わるのか？ https://www.slideshare.net/SeiichiUchida/cnn-65229102 上記を見ると（とくに16枚目、数字同士ですが）、実際にかなり分別できてますよ。これくらい認識できてたら、実用的だと認めて良いと思います。

oookabe

2017/12/19 07:12 編集

LLmanさん　有難うございます。 <<文字認識はCNNで終わるのか？>> の16頁の結果ですが、それは「正確に認識できた」のであれば、説得力ありますが残念ながら、それは「誤認識」の例ですから、何も言えませんね。その例を見たら、まさに「0とO」や「8とB」を区別できないでは、気がします。

行動規範の内容に同意します

ベストアンサー

RNNすれば文脈で少し精度が上がりそうですね。
文字だけだと人間でも正しく認識できないので考える必要が無いのではないでしょうか。

投稿2017/12/15 16:29

mkgrei

総合スコア8560

oookabe

2017/12/18 12:59

＞RNNすれば文脈で少し精度が上がりそうですね。とても良いかイディアで、ありがとうございます。ただ今回はあくまでもdeep learninig(eg., deep CNN)の分解能を知りたいのです。例えば、Iと1 や0 とO、8とBのような微妙な差のある文字同士に関してdeep learninigでやろうとしたら、理論上分別できるかどうかという質問です。どうぞ宜しくお願い致します。

mkgrei

2017/12/18 13:21

その質問は目の前に建物がある時に、建物の向こう側が見えるかどうかに似ていませんか？一枚の画像から見えるのはその角度からの姿だけです。微妙にしか差がないというのは、その角度から(手元にある情報から)はほとんど同じようにしか見えないことを言っています。与えられた情報からは区別することはできない、でも文脈があれば推測できる可能性があるだけ、のように思います。全単射ではない写像の逆関数を一意的に決めることができないのは原理的な問題な気がします。つまるところ、「微妙な差」の微妙具合によるわけです。微妙だけど、違いがあるのであれば、区別つきますし、微妙で、ケースバイケースでどっちもありうるのであれば、判定は原理的に不可能のように思います。

行動規範の内容に同意します

あなたの回答