Web APIにおけるK近傍法の実装

Question

### 前提

クライアントから特徴量ベクトルを受け取り、登録済みの特徴量ベクトルに対してK近傍法を実行し、推定した分類ラベルを返すようなサーバをPythonを使って実装しています。

登録されている特徴量ベクトルはすべてnumpy配列として扱っておりROM上にはnpyファイルとして保存しています。

### 疑問

K近傍法をPythonで実行しているので上記のように登録データをすべてnumpy配列として保存しているのですが、データ管理のしやすさを考慮するとSQLなどのデータベースに特徴量ベクトルを保存した方がいいような気がしました。

しかし、SQLサーバ上でK近傍法を実行する方法がなかなか思いつかず、ストアドプロシージャなどで自力でK近傍法を実装するような強引な方法しか考えられません。

そこで、SQLサーバ上で効率よくK近傍法を実装する方法が存在するならば、そのキーワードだけでも教えていただきたいです。
とくに見せるソースコードはありませんがよろしくお願いします。

Accepted Answer

DBに入れたデータをPythonで読み込んでk近傍法すればいいのでは。

---

そんなことより問題になるのは、どこでどのタイミングでfitするかです。k近傍法といっても、内部でKD木などを構築するので、fitの負荷があるのです。

- webサーバでリクエストが来る度に
論外。
- webサーバでwebアプリを起動するときにfitして、あとはメモリ上に置いておく
これはありかもしれません。深層学習だとこのやり方も論外ですが、k近傍法で極端にデータ数と特徴量次元数が大きくなければいけるんじゃないのという感じもします。起動が多少遅くなる程度です。このやり方だと割と上述のデータ管理のしやすい方法を素直に活かせます。
- 別環境で（別にwebサーバと共用にできるならそうしてもいいけど）fitさせてシリアライズしたものをサーバ上に置いておき、読み込んで使う
普通の機械学習アプリケーションはこれです。ただし、管理の面倒臭さはあまり解消しないかもしれません。そういうもんと割り切る。
- fitしない
リクエストのたびに総当りで距離を計算する。それはそれでありかもしれない方針。特に教師データが少なければ。

前提

疑問

関連した質問