質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.47%
機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

1回答

2455閲覧

【教えて】手書き数字2桁MNISTの技術的難易度

nass_sai_bai

総合スコア0

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2020/10/26 12:55

前提

現在、所属企業にて、手書き数字2桁をAIで認識する手法を作っています。

この手法は、もし(ある程度の認識率をもって)確立できたとしたら、技術的にはどの程度優れていると言えるのでしょうか。

ちょっと珍しい試み程度?
或いはそこらじゅうにありふれたレベル?

作成中のアルゴリズムの性能

・2桁数字認識率…画像18枚に対し14枚(まだ制作の途中であり、大量の枚数で試せていない。確かなことは言えないが、アルゴリズムのパラメータ調整によっては、まだ認識率が上がりそう)

・認識できる条件…認識対象の画像内には、数字を書くための長方形・空白の欄があり、2桁数字の位置は欄の中ならどこでも良い。

・アピールポイント(と自分で思い込んでいること)

1.数字と欄を切り離す前処理を作成した。数字が欄の下枠と被っていても識別可能。

2.更に、数字を1桁ずつに切り離す前処理を作成した。(これは輪郭取得に少し工夫をすればできる)

3.2桁以下の数字に対して使用可能。つまり1桁にも使用可能。

補足情報

2桁以上のMNISTは、ネットでいくら検索してもヒットがありませんでした。(1桁ずつ、別の枠の中に書いていくというものがあるくらい?)

その場のノリで『よっしゃ!1桁行けるなら2桁も行けるやろ!』と上司に啖呵切りましたが、MNISTに1桁ずつ読み込ませるための前処理に悪戦苦闘しました。

自分は、これを作るまで、機械学習はおろかpythonにすら全く触ったことが無く、いざ手法が完成しそう、という段階を前に、『これって本当にできるんだろうか。できたらからってどうなんだ?』と不安です。

どなたでもご自由に回答頂けたらありがたいです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

fana

2020/10/28 01:55

ど素人からの問いで恐縮ですが,"MNIST" とは何を指す語でしょうか? (ググるとそういう名前のデータセットが存在することはわかるのですが)
toast-uz

2020/10/31 22:40

未クローズですが、まだ回答を求められていますでしょうか?
guest

回答1

0

そこらじゅうにありふれたレベル、だと思います。

"手書きOCR"と、""付きでググると、検索結果が多数出てきます。枠なしのも含め。

PythonのOCRライブラリとGoogle Cloud Vision APIとで比較した結果などもレポートされています。後者ではばっちり読み取れています。
Pythonで画像の手書き数字を認識(OCR / Google Cloud Vision API)

投稿2020/10/26 13:30

toast-uz

総合スコア3266

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

nass_sai_bai

2020/10/26 14:59

回答のほど、ありがとうございました。正直言って、とても悔しくて、ずっとGoogle Cloud Visionについて調べてしまいました。 確かに手書き数字もバッチリ読み取れるようです。 が、一点。 やはり、というか、状況によっては、満足に機能しないケースも多少報告があるようですね。 https://stackoverrun.com/ja/q/10892649 https://www.ruimo.com/fromId?fromId=771 特に、2番目のURLで、文字が擦れる場合については、MNISTは十分カバーしてくれます。 Google Cloud Visionその他の高性能OCRが有料である点、そうであっても認識率は完璧とは行かない点、それらは数字に絞って文字認識をする機能は無い点、加えて初心者でも2週間程度で本2桁MNISTを製作できた点からすると、『技術的にはありふれてはいるけど、作って損はなかった。なにより、数字認識に特化している部分がある(かも?)』と言えなくもないようです。 何にせよ、教えてくださりありがとうございました。まだまだ不勉強のようです。
hentaiman

2020/10/26 19:17 編集

> なにより、数字認識に特化している部分がある(かも?)』と言えなくもないようです。 Googleと同じように数字以外の如何なる文字がインプットにあっても、少なくとも数字ではないという判断は出来ているのでしょうか? > 機械学習はおろかpythonにすら全く触ったことが無く、 コメントついでで。 これ自分も同じ感じでしたが簡単なものなら簡単に実装できるので、その経験を元に精度高いもの自分で作るぐらいなら外部サービス使った方がいいわって判断出来るようになれたのがメリットというかアピールポイントですね。 機械学習自体をアピールするなら何かしらのドメインに特化技術で無いとGoogleやIBMに100%負けるので全くの無意味だという事も理解できる。
toast-uz

2020/10/26 22:13

これも参考まで https://togetter.com/li/1319443 https://www.slideshare.net/BrainPad/ss-131876455 機械学習システム構築のための検討手順 1. やりたいことに機械学習は本当に必要か 2. 既存の訓練済APIで実現できないか 3. 既存の訓練必要なAPIで実現できないか 4. 既存の訓練済モデルで実現できないか 5. 独自のデータを使ってモデルを訓練する
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.47%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問