Recursive Feature Eliminationを用いたSupport Vector Classificationモデルで各特徴量の重要度をランキング？について

サポートベクターマシンの特徴量の重要度を知る方法は？を読んで一般論としてSVMに特徴量重要度のような概念はないと書いてあり、私自身SVCにおいて特徴量の重要度という概念はないと考えています。

ところが、特徴量選択についてという記事には__RFE (Recursive Feature Elimination) を用いて、Support Vector Classificationモデルで各特徴量の重要度をランキングしたものです。値が小さいほど重要度が高いです。__との記述があり、事実RFEはランキングをつけています。

これの意味することはどういうことなのでしょうか？
分かる方いれば教えて頂けると幸いです。

行動規範の内容に同意します

回答1件

ベストアンサー

その記事では線形カーネルを用いています。この場合、線形の分類器になるので、特徴量に対応する係数を得ることが出来ます。

Recursive feature elimination — scikit-learn 0.22.1 documentation

sklearnの実装としてはcoef_属性に代入されています。

coef_array, shape = [n_class * (n_class-1) / 2, n_features]

Weights assigned to the features (coefficients in the primal problem). This is only available in the case of a linear kernel.

coef_ is a readonly property derived from dual_coef_ and support_vectors_.

sklearn.svm.SVC — scikit-learn 0.22.1 documentation

これが信頼に値するかは別問題で、この手の線形モデルの係数を評価するときは、少なくとも特徴量がスケーリングされていないと係数の大小は特徴量の重要さと結びつきません。サンプルコードで使っているdigitsデータセットはグレースケール画像の濃淡の情報であり、各特徴量は同一スケールとみなしてもいいのでやっていないのです。
（SVMを使うときは基本的にはスケーリングをした方がまっとうな結果が得られます）

投稿2020/02/27 15:41

hayataka2049

総合スコア30933

yu__

2020/02/28 01:41

返信ありがとうございました！ coef_には、ovrにより各特徴量に対してn_class * (n_class-1) / 2個の重みがあります。例えばk次元のデータのnクラス分類だとすると、k個の特徴量各々に対してn * (n-1) / 2個の重みがあります。この情報からどのように重要な特徴量を算出できるのでしょうか？また、スケーリングの話ありがとうございます。文章から考えるに、スケーリングは各特徴事に行うということですか？ディープラーニングを用いたMnistの分類問題の場合、最大値で割ることによってスケーリングしてる点が違うなぁと考えてしまいました。教えていただけると幸いです！よろしくお願いします。

hayataka2049

2020/02/28 10:35

詳細は実装を見てください。それが答えです。ということで、私自身も気になったので見てみました。 https://github.com/scikit-learn/scikit-learn/blob/b194674c4/sklearn/feature_selection/_rfe.py#L37 ざっと追った感じだと、まずcoef_全体をニ乗して、それからn_class * (n_class-1) / 2個の重みを足し合わせたものを重要度として扱うようです（192行あたり）。普通にニ乗和ですね。

hayataka2049

2020/02/28 10:36

> スケーリングは各特徴事に行うはい。 sklearn.preprocessing.StandardScalerとかでやる操作です。

yu__

2020/02/28 16:58

返信ありがとうございました。スケーリング非常に大切だと分かりました。 ranks = np.argsort(safe_sqr(coefs).sum(axis=0)) でランク付けする方法がRecursive Feature Eliminationなんですね。大変助かりました。ベストアンサーにさせていただきました。

hayataka2049

2020/02/28 20:16

ランク付けの方法はRFEとしてはそんなに本質的ではありません。線形モデル系だと多クラスのときは同じ特徴量に対する複数の係数ができてしまうので、それをまとめる方法を何かしら決めないといけない、というだけで。この方法が妥当なのかどうかも正直議論の余地はあると思いますが、とりあえずscikit-learnの開発者たちはこれでいいとしている訳です。

行動規範の内容に同意します