質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

2886閲覧

ランダムフォレスタのパラメータの設定(グリッドサーチ)はどうすれば?

python_2019

総合スコア68

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2019/10/28 06:36

ランダムフォレスタでグリッドサーチを実行するために、パラメータを設定しました。
それぞれ、どの程度の設定値を設定してよいのかわからず、ネット情報などから、適当に設定しています。
一応、正常にサーチはされて結果も得られるのですが、このような設定値でよいのか疑問です。
特に、random_state' : [2525]
については、なぜこのように数値なのかよくわかりません。
「0」でなければ、どんな値でもよいのでしょうか?

この辺、お詳しい方、コメント頂戴できればありがたいです。
よろしくお願いいたします。

search_params = { 'n_estimators' : [5, 10, 50, 100, 300], 'max_features' : [5, 10, 20], 'random_state' : [2525], 'n_jobs' : [1], 'min_samples_split' : [5, 10, 50, 100], 'max_depth' : [1,3,5, 10, 50, 100] } clf = GridSearchCV(RandomForestClassifier(), # 対象の機械学習モデル search_params, # 探索パラメタ辞書 cv=3, # クロスバリデーションの分割数 verbose=0, # ログ表示 n_jobs=-1) # 並列処理

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

random_stateは乱数のシード値です。本来チューニングを行うべきハイパーパラメータではありませんが、結果の再現性を得るために固定しているのでしょう。

投稿2019/10/28 06:43

hayataka2049

総合スコア30933

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

python_2019

2019/10/28 07:17

ご連絡ありがとうございます。 都度、変化させないよう再現性のために固定しているのですね。 理解できました。 追加でもう1点お教えください。 search_paramsで、  'n_jobs' : [1], となっておりますが、 最下段では、  n_jobs=-1) # 並列処理 となっています。 これは、互いに異なる値(1と-1)ですが、問題はないのでしょうか? どうぞよろしくお願いいたします。
hayataka2049

2019/10/28 07:32

RandomForestClassifierのn_jobsを1に固定して(こちらでは並列処理させないで)GridSearchCVの側で並列に走らせるためなので、これでいいんですね。
python_2019

2019/10/28 07:49

ご連絡ありがとうございます。 お教え頂いた「RandomForestClassifierのn_jobsを1に固定して(こちらでは並列処理させないで)」 ですが、なぜ、ここで並列処理をさせないのでしょうか? 最終的にGridSearchCVで並列処理されれば、よいように思ってしまいます。 並列処理させないコードと、並列処理させるコードの2つがあるのはなぜでしょうか? RandomForestClassifierのn_jobs=1 を設定しないとどうなるのでしょうか? 私の勉強不足で何度もお聞きして申し訳ございません。 ご示唆頂ければありがたいです。
hayataka2049

2019/10/28 08:09

並列処理はまず使えるリソースをぜんぶ使うことが大切で、そのためにはこのケースだとどちらかで-1(全コア使う)を指定すれば良いです。 どちらを-1にするか、あるいは両方-1にするかはノウハウの世界です。こういう設定にした理由は思いつかない訳ではありませんが、確証はないので書きません。ご自身で検証されるといいでしょう。
python_2019

2019/10/28 08:15

ノウハウの世界ということなので、自分でいろいろ試してみて確証を得るしかなさそうですね。 時間がかかりそうですが、少しづつ試して行きたいと思います。 ありがとうございました。
hayataka2049

2019/10/28 10:11

両方で-1を指定するとコア数の二乗のスレッドないしプロセスで並列処理されますが、これはオーバーヘッドが出てきたり不都合があるので普通は避けたいはず。 どっちで並列にするかは微妙な問題です。私ならRandomForestClassifierの側で並列にしてGridSearchCVをシングルスレッドにするのもおかしくないと思いますが、速度を実測してみないとどちらが勝っているかはわかりません。
python_2019

2019/10/28 13:12

少なくとも、両方で-1を指定することだけは避けた方がよさそうですね。時間もかかりそうです。 それではどっちが良いのか?サンプルの性質との兼ね合いもありそうなので、いろいろ実験してみたいと思います。 貴重なご意見、ありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問