8月に入り、授業で、機械学習を始めたものです。
素朴な疑問なのですが、機械学習(CNNやそれをもとにしたYOLOなどの技術)関連の技術で、画像認識をする場合、対象物全体が画像に含まれているか否かなどの判定はできるのでしょうか?
YOLO などは、人の一部や車の一部が写っていても「人・車」と認識できます。
私が行いたいなと考えているのは、車全体が映っていれば「車全体」、車の一部しか見えていなければ「車の一部」と判断する分類器です。
これって機械学習の技術で可能なのでしょうか?
先生に聞いてみてもあまりわからなかったもので、
どなたか詳しい方がいれば、教えていただけると幸いです。
車を見る角度によって、見え方が違うと思いますが、そのへんの制約はあるのでしょうか?
tiitoi さん、すみません。車は例えに出したものなので、厳密な制約などは考えていません。
違う例ですが、
例えば、
机の上に置かれた本の表紙を撮影した時にその表紙全体が映っているかなどは判断可能でしょうか?
この場合、表紙全体が映って入れば「○」、表紙の一部でも見えない箇所があれば「×」とします。
撮影角度によって、表紙の見え方(歪み具合)などは変わると思いますが、そこは考慮しないとします。
あくまで、表紙全体が映っているか否かを分類します。
このような条件下のとき、機械学習で、画像に表紙全体が含まれているかを判定できるのでしょうか??
本もあくまで例でしょうか。
隠れているかどうか判断したい物体が何なのか、また撮影条件に制約があるのかどうかによって難易度が変わってくると思います。
いいえ、机の上の本は私が物体の全体認識を行いたい対象の一つです。
隠れているかを判定したい物体の一つは本です。
少し背景をお話しします。
私の友達に弱視の方がいます。
弱視とは重度の視覚障害のことで、私の友達は、がんばって光を認識できるくらいの視力です。
その友達に本の認識アプリを提案するとすごく喜んでくれました。
アプリの概要としては、本を撮影するとその本の種類を教えてくれるものです。
弱視の友達は、元々スマートフォンを所持していますが、カメラで物体の全体を画角に収めて撮影することが苦手です。(撮影しても、弱視のため、全体が映っているかどうかの把握が一人では、行えません。)
そのため、対象物体の全体がちゃんとフレーム内に収まっているかを判定する機能を付与した認識アプリが必要だと思っています。
将来的に様々な物体で、全体が映っているかの判定機能は必要になります。
機械学習などの技術でそれが行えるのであれば、取り組んでみたいと思います。
代替案1
QRコードのようにかざしながら、本のパターンをスキャンする。
問題 : 本や他の物体ではQRコーdのような明確なパターンを持っていない。
背景についてご説明いただきありがとうございます。
意図について理解できました。
将来的に様々な物体でとのことですが、まずは本をターゲットにして取り組まれてはどうでしょうか。
回答に追記したのですが、物体検出でその物体がある矩形の位置が取得できるので、それが画像の端にないかどうかでカメラ内に物体が収まっているかどうかを判定するのはいかがでしょうか。
回答2件
あなたの回答
tips
プレビュー