お世話になっています、最近深層学習を個人的に学び始めました。
個人用のプロジェクトでインスタンスセグメンテーションを扱ってみたいと思っているのですが、
データセットを自作する際のアノテーションに関して疑問点が生じたため質問させてください。
よろしくお願いいたします。
実現したいこと
######入力データ:
対象クラスが単体で存在したり, 画像内に複数の同クラスのオブジェクトが密集して存在する画像(clowded & occlusion?)
補足
- 密集画像の方はカゴに積まれたボールのようなイメージ。
- 対象クラスは果物なので、見た目などは非常に単純です。
- 識別対象クラスは単一です。
目的:
上記のようなデータに対して、maskrcnnなどのモデルを利用し(転移学習)、各インスタンスを区別した識別とセグメンテーションを行いたいです。
なお、可能であれば手前のオブジェクトで遮蔽されているオブジェクトについても識別できればなお良いですが、最終的に実現したい内容の要件的には手前のオブジェクトだけでも識別できれば問題ないです。
疑問
- 手前のインスタンスが検出できればいいという今回のケースでも、
訓練用のデータセットに複数の同クラスが密集したデータを含める必要はあるか
⇨ 必要な場合、遮蔽されたインスタンスはどのようにアノテーションすべきか(見えているところだけ or 隠れている部分も予測して 等)
- おおよその必要データ数
(条件によって変わるものだとは思いますが、もしセグメンテーションの転移学習のご経験があれば参考程度に教えていただければ嬉しいです)
厚かましくて恐縮ですが、アノテーションツールやインスタンスセグメンテーション用のモデルなどに関しておすすめなどもご教授いただけましたら嬉しいです。
試したこと
- 30枚程度の自作データセット(内50%がインスタンス単体, 残りが密集画像, 密集画像は遮蔽部分も予測してアノテーション)でmaskrcnnを転移学習
⇨ 30epochほど学習したのですが、対象インスタンスの検出がほとんどできませんでした。
データを投げ込む部分に関しては問題がないことは確認したため、データセットの量もしくは質に問題があると思い今回ご質問させていただきました。
補足情報(FW/ツールのバージョンなど)
Python: 3.8.6
利用モデル: maskrcnn(matterportの実装)
あなたの回答
tips
プレビュー