質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.31%
機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

統計

統計は、集団現象を数量で把握することです。また、調査で得られた性質や傾向を数量的に表したデータのことをいいます。

Q&A

1回答

365閲覧

機械学習で回帰分析を行ったときに使用可能な評価指標について

gardsb

総合スコア15

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

統計

統計は、集団現象を数量で把握することです。また、調査で得られた性質や傾向を数量的に表したデータのことをいいます。

0グッド

0クリップ

投稿2024/08/21 04:38

編集2024/08/27 01:44

実現したいこと

回帰分析を行ったときに使用可能な評価指標ついて正しく理解する。

発生している問題・分からないこと

以前、重回帰分析を行っていたのですが、評価指標として、
mae、mse、rmse、決定係数、自由度調整済み決定係数、P値、T値
を用いていました。

現在、LightGBM を用いて回帰分析を行っているのですが評価指標として使用できる
ものはどれか確認したいです。

私の認識は以下の通りです。

使用できるもの
mae、mse、rmse、決定係数(専用のライブラリもあり、実際に使用している記事を確認した。)

使用できないもの
P値、T値(線形回帰時にしか使用できないし、算出できない。)

不明
自由度調整済み決定係数(算出はできるが、調査しても線形回帰の解説記事にのみ登場していた。)

上記の認識はあっていますでしょうか?
また、自由度調整済み決定係数についてわかる方いらっしゃれば解説をお願いします。

該当のソースコード

なし

試したこと・調べたこと

  • teratailやGoogle等で検索した
  • ソースコードを自分なりに変更した
  • 知人に聞いた
  • その他
上記の詳細・結果

自由度調整済み決定係数は説明変数が多いほど決定係数の数値が良くなりやすい点を考慮し、調整を施した指標として認識しています。そのため、機械学習モデルでも使用してもよい気はしているのですが、機械学習モデルに自由度調整済み決定係数を使用している例を確認できなかったため、使用できないのではないかとも考えています。

補足

追加調査したところ、線形回帰以外でも使用できるようでしたが、算出時に調整する計算式が異なる様でした。そのため、機械学習では使われていないと考えましたがあっていますでしょうか?
https://ja.wikipedia.org/wiki/%E6%B1%BA%E5%AE%9A%E4%BF%82%E6%95%B0

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

meg_

2024/08/21 09:45

ドキュメントには「regression, the objective function is L2 loss」とありますね。
gardsb

2024/08/22 04:15

なにのドキュメントでしょうか? また、自由度調整済み決定係数が使用できるかご存知でしょうか?
meg_

2024/08/22 04:29

> なにのドキュメントでしょうか? LightGBMです。
guest

回答1

0

回答が0のようなので少し的外れかもですが回答致します。

評価指標は
何が使えるか
ではなくなんの目的で誤差を評価したいか
によって決めるのが普通と思います。

以前、重回帰分析を行っていたのですが、評価指標として、
mae、mse、rmse、決定係数、自由度調整済み決定係数、P値、T値
を用いていました。

とのことですが、これら全てを毎回用いているのでしょうか?
重回帰のような数理モデルがしっかりしているものは、決定係数、自由度調整済み決定係数、P値、T値でモデルの妥当性を見る場合と予実差としてMAE, rmse、あるいはMAPEなどを見ることが多いと思います。
LightGBMなどランダム性を用いたアンサンブルモデルではp値や自由度などでモデル自体の有効性を見ようということがそもそも存在せず、予実差のMAE, rmse、あるいはMAPEなどを見ることがほとんどだと思います。

私の場合はデータ分析に馴染みのない客先に説明するため、絶対平均誤差率としてのMAPEで示すことが多いです。
パーセンテージではなく絶対値に意味がある時にMAEでしょうか。

rmseはモデルの比較としては良いですが一般の方は実務での誤差として認識しづらいため。

投稿2024/11/19 15:49

aokikenichi

総合スコア2256

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

gardsb

2024/11/20 00:20 編集

ご回答ありがとうございます。 重回帰分析のときにはすべて出していました。 LightGBMでは、自由度調整済み決定係数の取り扱いだけよくわからないので質問させていただきました。 ご回答いただいた通りの使い分けがただしいと私も思いますが、機械学習モデルでも、決定係数を確認しモデルの有効性を確かめることもあるかと思います。 そのため、説明変数が増えたときのために自由度調整済み決定係数を使うべきかを検討していました。 自由度調整済み決定係数を使用してよいか、また使用する場合はなにか計算式を変えなくても問題ないのかを確認したいのです。
aokikenichi

2025/04/13 14:03

申し訳ないですが違います 自由度調整済み決定係数というのは重回帰分析で用いられる指標なので > 機械学習モデルでも、決定係数を確認しモデルの有効性を確かめることもあるかと思います。 がよくわかりません。ないと思います。聞いたことがないです。 > 説明変数が増えたときのために自由度調整済み決定係数を使うべきかを検討していました。 > 自由度調整済み決定係数を使用してよいか、また使用する場合はなにか計算式を変えなくても問題ないのか LightGBMの自由度調整済み決定係数の計算式というのを聞いたことがありません。 できるのならばするのは自由だと思います。 機械学習では目的に応じて精度指標を用います。 良いか悪いかならば自由に、というところですが、自由度調整済み決定係数が必要なシチュエーションというのがわかりません。 端的に言うならば使用してはいけないです。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.31%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問