認識エンジン（createEigenFaceRecognizer）での大規模データの高速化について

Question

顔認識システムを作ろうと思い、
OpenCV2.4のcreateEigenFaceRecognizerを使用して、実現しようとしています。

48,333枚の画像に対して、7944ラベルで学習させ、saveメソッドでパラメータを格納したxmlファイルを出力しました。
このxmlファイルの容量が5GBを超えて、非常に大きく、loadメソッドで読み込みをしようにも、3分程度の時間を要してしまい、システムとして使いものになりません。

createEigenFaceRecognizerを使った大規模データの取り扱いを高速化する方法はないのでしょうか？
（EigenFaceにとらわれずとも、大規模データを高速に認識する代替手段でも可）
また、こういった大規模データで認識エンジンを作る際にシステム構築のアプローチの定石のような物が存在するのでしょうか？

どうか、お力添えをよろしくお願い致します。

Accepted Answer

門外漢のインフラ屋より。

3分で5GByteのファイルをロードしているという事は、秒間約28.4MByte読みだしている事になります。
大体7200rpmのHDDでのベンチマーク上でのシーケンシャルReadが100MByte/s程度ありますが、
ランダムReadは30MByte/s程度なので、この5GByteのファイルというのが複数に細かくわかれていた場合、ディスク性能限界に達している可能性があります。
（ファイルが断片化している場合も同じ）
また、仮にベンチマークレベルの速度でシーケンシャルに読み出せたとしても、4倍弱辺りが物理的な限界速度になってしまいます。

この為、xmlファイル内のデータ構造は分かりませんが、正規化するなりデータ形式を変えるなりして、
CPU使用率が上がったとしてもデータ圧縮率を上げるのが先決ではないかと思います。
この意味で言えば、その5Gが全てメモリに載って且つ余裕があるなら、gzip等で保存し、
読み込み時にプログラム側で解凍して読むだけで相当な高速化を図れる可能性があります。

尚、これはデータ保存時にも同じことが言えます。（保存時の方がむしろ効果が高いかもです）

また、別の手として、「SSD上に保存する」「HDDをRAIDで高速化する」等も考えられます。

恐らくはn2.artsさんが求められていた回答ではないと思いますが、
ご参考になれば幸いです。

Answer

その後、EigenFaceのアルゴリズムを理解したので、
この質問に対する根本的な問題と本質的な回答を提示しておきます。

まず、
なぜEigenFaceを使って大量の画像を学習させると、
モデルパラメータファイル（xml or yaml)が莫大な容量になるのかについて。
EigenFaceは主成分分析を行って、画像毎に主成分（固有ベクトル:Eigen vector）と平均ベクトル:Mean vectorを生成します。
つまり、画像毎にパラメータを記憶しておく必要があるため、画像の枚数に比例して容量がかさむのです。

次に、読み込み高速化の方法です。
１：学習させる画像を減らす
２：データベースにパラメータを書き込み、それを読みこむ
１について、
上記のように画像の枚数に比例するため、学習させる画像の枚数を減らせば当然パラメータ量は減ります。
1つのラベルに大量の画像を割り当てて学習しても大して精度は変わりません（この理由は後述します）
２について、
画像毎にパラメータを持つわけなので、データベースへの登録も容易です。
しかし、OpenCVの関数をいじる事はなかなか骨が折れるので、使用している言語で学習、認識エンジンを再実装するのが早いと思われます。
基本的には主成分分析をしたものをパラメータとして扱っているので、実装は手軽にできると思います。
データベースに登録して、認識アルゴリズムをどうすれば良いのだ？という心配には及びません。
というのも、EigenFaceはただの最近傍探索（1-NN）だからです。
認識対象画像のパラメータを計算して、単に学習させた画像のパラメータとのユークリッド距離を計算して、最も近い画像のラベルを出力しているだけです。
このクエリを実装するのは調べればすぐに分かると思います。
また、最近傍探索(1-NN)であるが故、1つのラベルに大量の画像を割り当てても、精度が劇的に向上するわけではありません。基本的に同じ人物の顔であれば、画像の各パラメータはパラメータ空間上の近くにマッピングされるわけで、識別境界は画像を増やしても大きく変化しないからです。

蛇足：
私は画像処理を専攻していたわけではないのですが、機械学習的な観点から見ると、1-NNはかなり暴力的な識別方法（汎化性能が皆無に等しい）なので、画像認識の分野でこれがメジャーな方法という事に驚きを禁じ得ません。

Answer

XMLではなくYAML形式で保存すると少しは負荷が減るかもしれません。
また、DBで読み書きできるのであれば、こちらもやってみる価値はあると思います。