sklearn ランダムフォレスト

Question

sklearn ランダムフォレストのclass_weightパラメーターの使い方について教えてください。

2値問題の分類予測を行いたいのですが、
2値（0,1）について、ラベル0：3800　ラベル1：114　ほどの偏りがあります。

そこで、sklearn ランダムフォレストのclass_weightを使おうと思うのですが
下記のような使い方であっておりますでしょうか。

```python3
clf = RandomForestClassifier(class_weight='balanced')
clf.fit(X_train, Y_train)

または

clf = RandomForestClassifier(class_weight={1:3800/114})
clf.fit(X_train, Y_train)
```

ラベル1を3800/114倍する考えであっておりますでしょうか。

Accepted Answer

class_weightはデフォルトで1であり、weightを大きくするとそのクラスが強調されます。
なので、基本的にその考え方であっています。特段な理由がなければbalancedにしてしまうのが簡単です。balancedを指定した場合の計算方法も参考にしてください。

公式ドキュメントより：
> n_samples / (n_classes * np.bincount(y))


参考：
[3.2.4.3.1. sklearn.ensemble.RandomForestClassifier — scikit-learn 0.19.1 documentation ](http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html)

[python - How does the class_weight parameter in scikit-learn work? - Stack Overflow ](https://stackoverflow.com/questions/30972029/how-does-the-class-weight-parameter-in-scikit-learn-work)