質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
scikit-learn

scikit-learnは、Pythonで使用できるオープンソースプロジェクトの機械学習用ライブラリです。多くの機械学習アルゴリズムが実装されていますが、どのアルゴリズムも同じような書き方で利用できます。

Matplotlib

MatplotlibはPythonのおよび、NumPy用のグラフ描画ライブラリです。多くの場合、IPythonと連携して使われます。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Q&A

解決済

1回答

3550閲覧

教師あり学習モデル(SVM)において全く同じ訓練データを用いて学習を行っても作製されるモデルに違いが出る?

1mzmk

総合スコア43

scikit-learn

scikit-learnは、Pythonで使用できるオープンソースプロジェクトの機械学習用ライブラリです。多くの機械学習アルゴリズムが実装されていますが、どのアルゴリズムも同じような書き方で利用できます。

Matplotlib

MatplotlibはPythonのおよび、NumPy用のグラフ描画ライブラリです。多くの場合、IPythonと連携して使われます。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

0グッド

0クリップ

投稿2020/04/19 03:03

編集2020/04/19 04:07

Python

1import numpy as np 2import matplotlib.pyplot as plt 3import mglearn 4from sklearn.model_selection import train_test_split 5from sklearn.svm import LinearSVC 6 7X = csv_titanic[["Age"],["Fare"]] 8y = csv_titanic["Survived"] 9 10X_train,X_test,y_train, y_test=train_test_split(X, y, stratify=y, random_state = 0 ) 11 12print(y_train.value_counts()) 13print(y_test.value_counts()) 14print(y.value_counts()) 15 16 17svm = LinearSVC().fit(X_train,y_train) 18 19X_array = np.array(X) 20 21def plot_separator(model): 22 mglearn.plots.plot_2d_separator(model,X_array) 23 mglearn.discrete_scatter(X_array[:,0],X_array[:,1],y) 24 plt.xlabel("Age") 25 plt.ylabel("Fare") 26 plt.legend(["abc","alive"]) 27 plt.xlim([0,80]) 28 plt.ylim([0,300]) 29 plt.show() 30 31svm_15 = LinearSVC(C=15).fit(X_train,y_train) 32plot_separator(svm_15) 33 34svm_100 = LinearSVC(C=100).fit(X_train,y_train) 35plot_separator(svm_100) 36 37 38 39

上のようなコードでSVMを用いてモデルを作ったのですが、最後の4行だけを何度か実行すると実行するたびに異なるモデルが生成されます。(異なる分離直線が引かれます)

つまり、全く同じ訓練データを用いて同じアルゴリズムで学習させても、その時々で生成されるモデルに違いが出るということでしょうか?

よろしくおねがいします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

technocore

2020/04/19 04:02

y = csv_titanic["Survived"] X_train,X_test,Y_train, Y_test=train_test_split(X, Y, stratify=Y, random_state = 0 ) 小文字のyに受け取って、大文字のYを指定しています。 そもそも、あなたのソースコード動いていないでしょう。
guest

回答1

0

ベストアンサー

学習したモデルが変化するのは,学習時にランダムな要素が含まれているからだと思われます.

公式のdocument sklearn.svm.LinearSVCを見ると,random_stateと呼ばれるパラメータと,その説明があります.

random_stateint, RandomState instance or None, optional (default=None)

The seed of the pseudo random number generator to use when shuffling the data for the dual coordinate descent (if dual=True). When dual=False the underlying implementation of LinearSVC is not random and random_state has no effect on the results. If int, random_state is the seed used by the random number generator; If RandomState instance, random_state is the random number generator; If None, the random number generator is the RandomState instance used by np.random.

説明の一文目に,dual coordiante descent (Platによる最適化のアルゴリズム)のために,dataをshuffleしており,shuffleのために擬似乱数生成をしていることが書いてあります.

つまり,学習データが毎回異なる順番になるため,学習したモデルは異なる挙動をするということです.
もしも,毎回同じモデルを生成したい場合,LinearSVCの引数にrandom_state=0(0ではなく適当な数字でいい) と指定することで実現できると思います.

SVMの詳しいアルゴリズムについては以下の文献や書籍が詳しく書かれていて良いと思います!
(下の機械学習のエッセンスは,一般的な機械学習手法のアルゴリズムから実装までが,丁寧に書かれているので,非常におすすめです.上は英語に抵抗がなければ良いと思います.)

投稿2020/04/19 14:43

編集2020/04/19 14:56
tanimutomo

総合スコア88

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

1mzmk

2020/04/20 05:48

ご回答ありがとうございます。 ただそうしますと、同じ学習データを用いても、コンピューターが学習していくデータの順番によってモデルに差がでてくるということですかね?
tanimutomo

2020/04/20 05:51

そうですね! 順番をこちらで指定してしまえば,同じになるはずです(順番の決め方を指定するパラメータが`random_state`です)
1mzmk

2020/04/20 06:03

そうなんでね。ありがとうございます。 全く同じデータを用いて学習してもモデルに差が出るのは少し不思議な感じです。 最後に一つだけ質問させて下さい。 実際のビジネスの場面で分類を行うモデルを作ろうと思った際にはアルゴリズムにrandom_stateを指定せずにいろいろな場合のモデルを見てみるということは行われてるんでしょうか? よろしくお願いします。
tanimutomo

2020/04/20 06:14

乱数によってモデルの性能に大きく影響が出ることはほとんどないので,個人的にはrandom_stateはほとんど気にしなくても良いので,何も指定しなくていいと思っています. (乱数によってモデルの性能が変わってしまうような方法は,あまり良いアルゴリズムとは言えないので,sklearnにあるような代表的な手法を利用する際にはほとんど気にしなくて良いと思います.) random_stateを指定した方がいいのは,実験の再現性を担保したい時だと思います.(論文や技術書の執筆などで再現性が求められる場合など) ビジネスでPoCを回している段階等であれば,データの前処理 (これが一番) や,機械学習モデルの選定,等に時間を割くのが望ましいかと思います.
1mzmk

2020/04/20 06:25

なるほど、わかりました。 ご丁寧に説明していただきありがとうございます。本当に助かりました。 ありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問