ディープランニングに対するカスケード分類器の優位性

質問

一般的に、
「カスケード分類器はディープランニングに対して認識速度が速い（認識時の演算量が少ない）」
と言われていて、どの文献やサイトを見ても前提として扱われていますが、
それを示す文献はないでしょうか。
また、「カスケード分類器の方が学習に使用するサンプル数が少なくても学習できる」
ことについての文献はないでしょうか。

試したこと

Google ScholarやGoogle検索で
カスケード分類器　認識時間
ディープランニング　認識時間
cascading classifiers　recognition time
など、一通り調べましたが、学習にかかる時間の話しか出てきませんでした。

jbpb0

2021/10/24 21:21

> 「カスケード分類器はディープランニングに対して認識速度が速い（認識時の演算量が少ない）」と言われていて、どの文献やサイトを見ても前提として扱われていますが、それを示す文献質問者さんが想定してる「文献」に該当するかは分かりませんが、 https://iatom.hatenablog.com/entry/2020/11/01/152307#%E9%A1%94%E6%A4%9C%E5%87%BA%E6%99%82%E9%96%93 の「顔検出時間」に速度比較結果が有りますこういうのは環境(ハードや実装)に依存するので、あくまでもある条件で比較したらこうなった、というものでしかありませんけど cnnにもいろいろあるし (yoloだともっと速いかも)

行動規範の内容に同意します

回答1件

ベストアンサー

カスケード分類器はディープランニングに対して認識速度が速い（認識時の演算量が少ない）

恐らく自明すぎて文章になっていない可能性があります。
いつの技術でどういうPCで動いていたかを考えると分かりやすいと思います。

カスケードはだいたい、ですが2001年の技術です。もちろん使うのはCPUですよね。
https://www.merl.com/publications/docs/TR2004-043.pdf
たぶん、ですが、今考えるとヘボい周波数の、しかもシングルコアのPCでも使えるような軽さのそこそこの認識力のある技術として登場したはずです。~~具体的には公開されていないと思いますが、デジカメやガラケーなどの笑顔認識に使われているのではないでしょうか？~~コラムですがありました。

深層学習はヒントン先生が引き合いに出したのが2012年のコンペだったと思います。
もちろんGPUです。モデルが乗っかりきらないので2台のGPUに分割したと思います。
コア数は一台で1桁後半くらいでしょうか。

手元にGPUのあるPCがあるなら試せますが、
GPUをオフにしてCPUだけで推論をすればどれだけ遅いかすぐにわかるはずです。
同じようにHAAR-LIKEを普通に推論すれば（CPUだけですので、）サクサク動くことが検証できるはずです。

カスケード分類器の方が学習に使用するサンプル数が少なくても学習できる

OpenCVの場合、生データが少なくても結局学習させる前にそこそこの量まで（細切れを）データ増強をさせないと使い物にならなかったと思います。比較はしてませんので勘ですが、恐らく、深層学習で言えばYOLOならばHAAR-LIKEと同じ枚数だけ（細切れではなく画像全体を）データ増強していいのであれば、より検出力が高く、しかもカラー画像でちゃんと認識できると思います。

どうしても言質を取る必要があり、検証できる時間があるのであれば、両方ともチャチャっと試してみるのもありかもしれません。

投稿2021/10/24 21:19

編集2021/10/24 21:32

退会済みユーザー

総合スコア0

退会済みユーザー

2021/10/24 21:39 編集

http://www.ail.cs.gunma-u.ac.jp/ailwiki/index.php?Haar-like%E7%89%B9%E5%BE%B4%E9%87%8F%E3%82%92%E7%94%A8%E3%81%84%E3%81%9F%E3%82%AB%E3%82%B9%E3%82%B1%E3%83%BC%E3%83%89%E5%88%86%E9%A1%9E%E5%99%A8%E3%81%AB%E3%82%88%E3%82%8B%E5%89%8D%E6%96%B9%E8%BB%8A%E4%B8%A1%E3%81%AE%E8%AD%98%E5%88%A5 > 正解画像を3172枚、不正解画像を2100枚用意し、学習を行わせた。これでカスケードの場合で車両の認識率約90%だそうです。道路上の前方を走る車の検出だけなら、YOLOであればほぼ100%になると思います。カスケードは漏れを減らそうとすると極端に誤検出するのでスコアを上げるのは難しいです。（たくさん拾っておいて、カスケードの後にSVMか何かでさらに選別しないと正確な結果は出しにくいです。「それじゃあかんやろ」として出てきたのが先のヒントン先生の話になります。ほかの方法と比べ精度がぶち抜いて高くて圧勝したのは有名な話です。以降深層学習の流れに移ります）ですので、枚数が少なくて済むに関しては「？」が残ります。