ちょうど最近Google Vision APIを使っている者です。
対象物のラベル検出(LABEL_DETECTION)の精度が低い、ということですよね。
ラベル検出自体は、当然Googleさんが担当しているので、下処理をどう頑張るかですね。
パッと思いつくのはこのあたりです。
もし、画像中央の単一物体を判定できれば良い && 対象物周辺に写るものが検出を困難にしていそうなら、
自分なら、他にはこのあたりを試してみます。
- 撮影目安となる範囲(例えば300px四方のグリッド)を表示して、撮影後その範囲外の領域を単色で塗りつぶす。
- 画像中の輪郭線を検出する手法(Cannyエッジ検出等)を駆使して、
投稿画像中の周辺領域の不要そうな部分を塗りつぶす。(これは名刺管理アプリでの周辺除去で使われています)
- なるべく正面と呼べる(回転していない)向きで対象が写っている画像を投稿して、結果に影響があるかを見てみる。
(結果として、影響していそうだった場合のアプローチはしにくいかもしれませんが)
- ラベル検出はテキスト検出と異なり色に意味がありそうなので、マイナスに働くかもしれませんが、グレースケールに変換した画像を投稿して、結果に影響があるかを見てみる。
ふと思ったのですが、コンピュータを学習させる時の画像にマウスが写り込んでいる可能性は多少ありそうなので、
特にその判定については誤差が大きいかもしれませんね。
多少なりともお役に立てば幸いです。
2017/12/20 08:36