私も気になる質問ですし、このまま未解決・未回答のまま埋もれてしまう(掘り返さない限り読み返されない)のは悔しいですし、もっと詳しい方の回答が得られることを期待して書きます。
それっぽいキーワードで検索すると、大半が電気代と性能のトレードオフ止まりの情報しか呈示していませんでした。このような中、あきらめずに探すとQuoraの質問に至ります。
2017-11-16 A.M
以前書き込んだ際は残っていたのに、なぜか消えた95% の部分をうろ覚えで復旧
■Tim Dettmersさん
*高解像度化 VS 深層化
| 高解像度化 | 深層化 |
---|
代表例 | BaiduVision | ResNet |
高解像度化は確かにパフォーマンスを改善できるが、だからといって高解像度化をすることがパフォーマンス(精度)を常に改善できるとは限らない。もし、低解像度で十分に判別できるのであれば、高解像度化しても情報量が無駄に多いだけだ。
一般論として、高解像度化するよりも深層化した方が、計算コストは安くて済む。(BaiduVision vs ResNetの関係)
■Chomba Bupeさん
*適切な解像度
| 鮮明に撮影 | 不鮮明に撮影 |
---|
グローバル特徴global feature | 軽視 | 重視 |
細かい特徴finer feature | 重視 | 軽視 |
∴トレードオフの関係があり、「どの解像度が良い」という万能なものは存在しない
*グローバル特徴と細かい特徴の活かし方
だからこそ、コンピュータビジョンにおいて、どのような特徴がどうやって(広い範囲なのか狭い範囲なのか)入ってくるのか分からない認識問題では(鮮明さの違いという意味で)複数の解像度で処理するのが望ましい。
・プーリングについて
CNNでのプーリングは「複数解像度での処理」に対応する手法ではあるが、スケールスペース分析scale space analysis
とは異なっている。
・スケールスペース分析について
さまざまな解像度(詳細・粗い)での特徴量を学ばせるのであれば、プーリングよりもCNNにイメージピラミッドを送る方が効果的だろう。(プーリング抜きの)CNNにいろいろな解像度、いろいろな方向の画像を食わせて、最後(だけ)Maxpoolingして答えを統合するのもありだろう。
と、いう感じで、スケールスペース(綺麗、粗い)を変えて学習させる手法は、計算コストはかなり高くつくけれども、精度UPはきっちり見込めるはずだ。
■Gianluca Nanさん
認識できる最小限の解像度が良いでしょう。手書きの数字を認識するのに255*255の画像ではもったいないし、処理が重くなります。
以下、私の考えです。
という感じで、「この条件がベストだ!」と具体的に数値やグラフで示されているデータはなさそうです。恐らくもっとも洗練された汎用認識システムは人間ですので、人間が見てわかりにくい解像度のデータは入力としてあんまりよくない気がします。
ですので、私がもしやるのであれば、以下の感じでしょうか。
・まずは少し大きめの画像を保存する(生データ)
・集まった画像をぼーっと眺める
・これくらいならわかるかな?というサイズの最小限のサイズにリサイズする
・実際に走らせる
・アタリが悪そうなら、先に保存した生データを最小限のサイズ+αにリサイズして実際に走らせる