LIGHTGBM:num_boost_roundとn_estimatorとepochの関係

表題の通りなのですが、
num_boost_roundとn_estimatorとepochの関係
を教えていただけないでしょうか。
特にnum_boost_roundの勾配ブースティングのイテレーション数というのが不可解で理解できていません。ブースティング数というと分割の回数や木の深さを連想しますが、分割回数などはMAX_LEAFE_NODESやMAX_DEPTHなどで指定できたはずです。

また、エポック数はニューラルネットと同様バッチ処理で学習していてデータセット全体を何周するかという認識で会っているでしょうか。

お手数ですが、回答のほどよろしくお願いいたします。

行動規範の内容に同意します

回答1件

LightGBMは使ったことがないので少し的を外しているかもしれませんが，Scikit-Learnを使ったことがあって，その時の経験から書いてみます。（と言っても忘れていたので勉強し直しました）

まず，LightGBMはGradient Boosting Desition Tree(GBDT)という方式を用いていて，複数の決定木(性能の低い学習器)を組み合わせて一つの学習器を構成しているイメージであるということはご存じでしょうか?
この方法をアンサンブルといいます。

https://www.researchgate.net/figure/Schematic-diagram-of-a-boosted-ensemble-of-decision-trees_fig2_325632132より

そして，この「決定木の数」がn_estimatorに相当します。

ブースティングというのはこのアンサンブルの一手法で，ある決定木を学習させた後，次の決定木を決める時に，一つ前までに学習させた学習器でうまくいかなかったデータのを精度よく推定できるよう試みていくのを順に繰り返していく方式のことをいいます。

https://medium.com/analytics-vidhya/ensemble-models-bagging-boosting-c33706db0b0bより

この図を見ていただくと，ランダムフォレスト法がそれぞれの決定木を学習するのに他の決定木と依存関係がなく，独立しているのに対し，GBDTでは1つ前の決定木に依存関係があることが何となくイメージができるでしょう。

このように，LightGBMの学習は，このそれぞれの決定木を学習させて順に求めていくことでありn_estimator個揃って一つの大きな学習器となります。

このn_estimator個揃えて一つの学習器を作るのをnum_boost_round回繰り返すというのが一連の学習の流れであり，質問者のおっしゃる通りnum_boost_round=epoch数といえます。

なお，MAX_LEAF_NODES，MAX_DEPTHはそれぞれの決定木(弱い学習器)の分岐数，分岐深さの制約条件であり，n_estimatorやnum_boost_roundとの意味合いの違いは明らかでしょう。

投稿2021/09/28 15:43

ujimushi_sradjp

総合スコア2192

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.30%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問