決定境界、マージン、サポートベクタの可視化

import numpy as np
import matplotlib.pyplot as plt
np.random.seed(123)
# X軸Y軸ともに0から1までの一様分布から100点をサンプリング
X0 = np.random.uniform(size=(100, 2))
# クラス0ラベルを100個生成
y0 = np.repeat(0, 100)
# X軸Y軸ともに-1から0までの一様分布から100点をサンプリング
X1 = np.random.uniform(-1.0, 0.0, size=(100, 2))
# クラス1のラベルを100個生成
y1 = np.repeat(1, 100)
# 散布図にプロット
fig, ax = plt.subplots()
ax.scatter(X0[:, 0], X0[:, 1], marker='o', label='class 0')
ax.scatter(X1[:, 0], X1[:, 1], marker='x', label='class 1')
ax.set_xlabel('x')
ax.set_ylabel('y')
ax.legend()
plt.show()

pythonの資格取得のために勉強しているのですが、上記の一様乱数による2つのクラスに属する2次元のデータの生成の後、

from sklearn.svm import SVC
# 学習、および決定境界、マージン、サポートベクタを可視化する関数
def plot_boundary_margin_sv(X0, y0, X1, y1, kernel, C, xmin=-1, xmax=1, ymin=-1, ymax=1):
    # サポートベクタマシンのインスタンス化
    svc = SVC(kernel=kernel, C=C)
    # 学習
    svc.fit(np.vstack((X0, X1)), np.hstack((y0, y1)))
    
    fig, ax = plt.subplots()
    ax.scatter(X0[:, 0], X0[:, 1], marker='o', label='class 0')
    ax.scatter(X1[:, 0], X1[:, 1], marker='x', label='class 1')
    # 決定境界とマージンをプロット
    xx, yy = np.meshgrid(np.linspace(xmin, xmax, 100), np.linspace(ymin, ymax, 100))
    xy = np.vstack([xx.ravel(), yy.ravel()]).T
    p = svc.decision_function(xy).reshape((100, 100))
    ax.contour(xx, yy, p,
               colors='k', levels=[-1, 0, 1],
               alpha=0.5, linestyles=['--', '-', '--'])
    # サポートベクタをプロット
    ax.scatter(svc.support_vectors_[:, 0],
               svc.support_vectors_[:, 1],
               s=250, facecolors='none',
              edgecolors='black')
    ax.set_xlabel('x')
    ax.set_ylabel('y')
    ax.legend(loc='best')
    plt.show()

続いて、サポートベクタマシンにより学習、決定境界、マージン、サポートベクタを可視化する処理を行っているのですが、一貫して、y0とy1の役割がわかりません。

　まず、1ボックス目で、#クラス0ラベルを100個生成（y0）と#クラス1のラベルを100個生成（y1）は、なぜ行わなければならないのでしょうか。X0とX1のみで散布図は書けるように見受けられます。

次に、2ボックス目で、#学習、および決定境界、マージン、サポートベクタを可視化する関数　及び、#学習で、y0とy1を使ってやっていることがわかりません。

どなたか、ご教示いただけますと幸いです。

行動規範の内容に同意します

回答1件

まずサポートベクターマシンについて少し調べられましたでしょうか。
多数のデータがあり、それを0と1のような2つのグループに分ける（判別）するのに用いられます（回帰などもできますがここでは置いておきます）。

サポートベクターマシン(SVM)とは？〜基本からPython実装まで〜
ここなどが分かりやすいでしょうか。

まず、1ボックス目で、#クラス0ラベルを100個生成（y0）と#クラス1のラベルを100個生成（y1）は、なぜ行わなければならないのでしょうか。X0とX1のみで散布図は書けるように見受けられます。

おっしゃるとおり散布図はx0とx1のみで描けます。

次に、2ボックス目で、#学習、および決定境界、マージン、サポートベクタを可視化する関数　及び、#学習で、y0とy1を使ってやっていることがわかりません。

冒頭の説明通り、データを0と1で分けたいのです。ただサポートベクターマシン側ではどれが0かどれが1か分からないのでそれを人間が教えてあげます。それがy0とy1です。
この学習を経ますとサポートベクターマシンがこういうデータのときは0、こういうデータのときは1だと判断する基準を知りますので、新たにデータを入れて0か1かの答えを出してくれます。

y0とy1は答えを教えて学習させるための答えの役割です。

投稿2020/09/13 05:55