random_stateを指定しても、毎回出力がかわるのはなぜ？

LinearSVCを使って、機械学習の２クラス分類をしたいのですが、
このコードを実行すると、毎回lr.scoreの出力が変わります。
random_stateを指定しているのですが。。。

from sklearn.svm import LinearSVC
from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(
    cancer.data, cancer.target, stratify=cancer.target, random_state=42)
lr = LinearSVC().fit(X_train, y_train)
print("Training: {:.3f}".format(lr.score(X_train, y_train)))
print("Test: {:.3f}".format(lr.score(X_test, y_test)))

特に支障はないのですが、
理由と対応策を教えてください。
ちなみに、以下のように同じようなコードでロジスティック回帰をしても、出力は変わらず毎回同じです。

from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_breast_cancer


cancer = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(
    cancer.data, cancer.target, stratify=cancer.target, random_state=42)
logreg = LogisticRegression(C=0.01).fit(X_train, y_train)
print("Training: {:.3f}".format(logreg.score(X_train, y_train)))
print("Test: {:.3f}".format(logreg.score(X_test, y_test)))

行動規範の内容に同意します

回答1件

ベストアンサー

理由
LinearSVCは内部でliblinearを呼んでいます。liblinearはデータの削減を行うことで大きいサイズの問題でも近似的に解くことができるようにしたものです。データ削減の過程で乱数を発生します。
解決策
lr = LinearSVC(random_state=0).fit(X_train, y_train)

投稿2017/11/12 22:54

編集2017/11/13 01:03

WathMorks

総合スコア1582

mkgrei

2017/11/13 00:33

大抵の学習器自身にもrandom_stateがあるので、ドキュメントを参考にするとよいかと。 http://scikit-learn.org/stable/modules/generated/sklearn.svm.LinearSVC.html 最悪、いつもrandom_state=0で固定してみて、そんな引数を取れません、と怒られたときに消すという荒業があります。たまにrandom_stateというキーワードではなかったりするときに再度ドキュメントを調べるのです。 Scikit-learnでは統一しているのか自信はもてませんが、Xgboostではseedのようですね。 https://github.com/dmlc/xgboost/blob/master/doc/parameter.md