質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
Google Colaboratory

Google Colaboratoryとは、無償のJupyterノートブック環境。教育や研究機関の機械学習の普及のためのGoogleの研究プロジェクトです。PythonやNumpyといった機械学習で要する大方の環境がすでに構築されており、コードの記述・実行、解析の保存・共有などが可能です。

アルゴリズム

アルゴリズムとは、定められた目的を達成するために、プログラムの理論的な動作を定義するものです。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

1回答

1848閲覧

説明変数の重要度変数(importances[indices])の評価方法の件

kouji_39

総合スコア164

Google Colaboratory

Google Colaboratoryとは、無償のJupyterノートブック環境。教育や研究機関の機械学習の普及のためのGoogleの研究プロジェクトです。PythonやNumpyといった機械学習で要する大方の環境がすでに構築されており、コードの記述・実行、解析の保存・共有などが可能です。

アルゴリズム

アルゴリズムとは、定められた目的を達成するために、プログラムの理論的な動作を定義するものです。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

1クリップ

投稿2021/05/04 08:17

1.前提
バギングとブースティングによる回帰予測をしています。
説明変数の重要度変数(importances[indices])の評価方法
で、ランダムフォレストやXGBoostは、合計1での説明変数別の評価値が
得ることができます。
しかし、CatBoostでは、合計100での説明変数別の評価値となります。
また、lightGBMでは、合計値は数十~数百と定まった値ではありません。

2.実現したいこと
ランダムフォレストやXGBoostは、条件が同じなので、評価の仕方
も同じでよいと考えます。
4つのアルゴリズムでの説明変数比較をしたいのですが、他の2つ
アルゴリズムについては、以下の疑問があります。
1)catboostは、100で割って、重要度合計1にして各説明変数を評価すべきものなのか?
2)lightGBMは、総計で割って、重要度合計1にして各説明変数を評価すべきものなのか?
詳しい方のご意見をよろしくお願いいたします。

3.参考コード

python

1#(lightGBMのコード) 2# 特徴量重要性を計算 3importances = model_lgb.feature_importance() 4# 特徴量重要度の変数 5importances[indices] 6 7 8#(lightGBM以外のコード) 9# 特徴量重要性を計算 10importances = model.feature_importances_ 11# 特徴量重要度の変数 12importances[indices]

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

  • 同列に扱いたければ合計1に揃えるしかありません
  • ライブラリ・モデルごとに定義が食い違う可能性があるので、厳密に値の比較を行うのであればそれぞれの仕様を確認してみた上で、意味のある比較が行えるかどうか検討しないといけません(ちょっと難しい)
  • 細かい値の相違は無視して、大雑把に重要度でランク付けして確認してみる程度であれば、そこまで気にする必要はないかもしれません
  • この手の変数重要度は、どの道さほど厳密なものではなく、目安程度の意味しかありません。線形回帰や判別分析の係数であれば統計的な分析に使えますが、そこまでのお役立ちは期待できません

けっきょくのところ、変数重要度からなにを言いたいのか? 次第ではないでしょうか。

投稿2021/05/04 10:30

hayataka2049

総合スコア30935

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kouji_39

2021/05/04 11:31

ご回答ありがとうございます。文献等を調査してみると、以下のコメントがありました。 「重要度は「ターゲットの分類にその特徴量による分割がどれくらい寄与しているかを測る指標」なのであって、具体的にどの特徴量をどれくらいの値にすると結果がどうなるのかは言えません。」 重回帰の例では、ある変数をどれくらいの値にすることでどれだけターゲットの値が変化するのかがわかるようなことがありますが、決定木系統での重要な特徴量では同様なことが言えないということですね。 ランダムフォレスト等の予測モデルに使用する特徴量選択の面では、意味のある数値と考えています。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問