深層学習はどれぐらいの認識分解能を持っているのでしょうか
解決済
回答 2
投稿
- 評価
- クリップ 0
- VIEW 181
よく見られるMNISTでの実験だと数字ばかりなので、実用的にならないではと思います。
応用において英数字混在する場面が多いし、
どの文字もある程度の変形がします。
このような時、下記のような文字同士を深層学習で区別できるのでしょうか。
"8"と"B";
"1"と"l";
"0"と"O"と"o","D";
"R"と"P";
"6"と"G";
"m"と"M";
"2"と"Z"と"z"
ご教授いただければ幸いと思います。
-
気になる質問をクリップする
クリップした質問は、後からいつでもマイページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
クリップを取り消します
-
良い質問の評価を上げる
以下のような質問は評価を上げましょう
- 質問内容が明確
- 自分も答えを知りたい
- 質問者以外のユーザにも役立つ
評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。
質問の評価を上げたことを取り消します
-
評価を下げられる数の上限に達しました
評価を下げることができません
- 1日5回まで評価を下げられます
- 1日に1ユーザに対して2回まで評価を下げられます
質問の評価を下げる
teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。
- プログラミングに関係のない質問
- やってほしいことだけを記載した丸投げの質問
- 問題・課題が含まれていない質問
- 意図的に内容が抹消された質問
- 広告と受け取られるような投稿
評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。
質問の評価を下げたことを取り消します
この機能は開放されていません
評価を下げる条件を満たしてません
質問の評価を下げる機能の利用条件
この機能を利用するためには、以下の事項を行う必要があります。
- 質問回答など一定の行動
-
メールアドレスの認証
メールアドレスの認証
-
質問評価に関するヘルプページの閲覧
質問評価に関するヘルプページの閲覧
+2
深層学習で区別できるのでしょうか
「"8"と"B"」のような似た文字は、
区別できる場合とできない場合があります。
要は、精度をどこまで追求するかという話になりますが、
最近の文字認識は正解率99%以上を達成しているので、
実用に耐えられると考えても良いと思います。
できない場合に「人間でもできない場合」は、
記号の認識限界だから仕様がないでしょう。
(人間の判断と一致するか、というと微妙なズレはありますが)
数字ばかりなので、実用的にならない
深層学習の話題を離れますが、これは少し大ざっぱな話です。
実際にたとえば、郵便はがきは区分機で、
郵便番号を自動で読み取られているんです。
そういう数字だけでも実用になる場面がありますし、
フォーマットの設計で工夫できる場面もあります。
工業規格でそういう工夫がしてあるものがあります。
たとえば、カンヅメの印字には規格があります。
もっと言えば、バーコードやマークシートみたいに、
機械が読み取りやすい形にしてもいいわけです。
あるいは、(公開鍵)暗号でも、「ゼロとオー」とか、
似ている文字は使わない、といったルールもあります。
だから、フォーマットを自由に設計できる場合には、
書類に何かの型番みたいな番号を書くとしたら、
「英語-数字」みたいに順番を決めておくとか。
機械学習、もっと言えばデジタルな部分だけにこだわらず、
「枯れた技術の水平思考」というか、
そういうアナログな部分の工夫も大事です。
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
checkベストアンサー
+1
RNNすれば文脈で少し精度が上がりそうですね。
文字だけだと人間でも正しく認識できないので考える必要が無いのではないでしょうか。
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
15分調べてもわからないことは、teratailで質問しよう!
- ただいまの回答率 91.05%
- 質問をまとめることで、思考を整理して素早く解決
- テンプレート機能で、簡単に質問をまとめられる
2017/12/18 21:57
>最近の文字認識は正解率99%以上を達成しているので、実用に耐えられると考えても良いと思います。
これは文字セットによるではと思います。
例えば、もしtraining用の文字セットに8とB, 0とOを同じ文字と定義され、trainingとテストを行えば、
当然正確に認識率が上がると思いますが、知りたいのは8とB, 0とOを「異なる文字」として定義されている場合はどうなるのでしょう。
当然SEMI規格のように似ている英数字同士を新規フォントに置き換えられたのも一つの手ですが、
それは論外です。あくまでもdeep learninig(eg., deep CNN)の分解能を知りたいです。
Iと1 、0 とO、8とBのような微妙な差のある文字同士に関してdeep learninigでやろうとしたら、理論上分別できるかどうかという質問です。
どうぞ宜しくお願い致します。
2017/12/18 22:37
https://www.slideshare.net/SeiichiUchida/cnn-65229102
上記を見ると(とくに16枚目、数字同士ですが)、
実際にかなり分別できてますよ。
これくらい認識できてたら、実用的だと認めて良いと思います。
2017/12/19 16:12 編集
<<文字認識はCNNで終わるのか?>> の16頁の結果ですが、
それは「正確に認識できた」のであれば、説得力ありますが
残念ながら、それは「誤認識」の例ですから、何も言えませんね。
その例を見たら、まさに「0とO」や「8とB」を区別できないでは、気がします。