Xとlabels_trueの値がそれぞれ何なのかわからない

Xとlabels_trueの値がそれぞれ何なのかわからないです。

import numpy as np
import pandas as pd
from sklearn.datasets import make_blobs
%matplotlib inline
import matplotlib.pyplot as plt

X, labels_true = make_blobs(
    n_samples=1000,         
    centers=[[-5,-5],[0,0],[5,5]], 
    cluster_std=1.0,                
    random_state=0)

print(X)
print(labels_true)

df = pd.DataFrame(np.hstack([X, labels_true.reshape(len(labels_true),1)]),columns=["X0","X1","label"])
col = df.label.map({0:'b', 1:'g', 2:'r'})
df.plot(x='X0', y='X1', kind='scatter', c=col, colorbar=False, figsize=(3,3))

というサンプルコードがあって、
print(X)では

[[-6.04855297 -6.42001794]
 [-3.23594765 -4.59984279]
 [ 4.50420451  6.21657771]
 ..., 
 [ 0.60711167 -1.04817041]
 [ 1.63159743  0.37775917]
 [ 4.02759711  6.34622107]]

と出力されて、print(labels_true)では

[0 0 2 1 2 1 0 0 2 1 1 0 2 0 2 0・・・]

と出力されました。
一見するとone-hot encodingのようですが、何の次元を取っているのかわかりません。

行動規範の内容に同意します

回答1件

ベストアンサー

修正：
中心の点が十分離れている場合、以下修正削除したコメントは正しいのですが、紛らわしいので消しました。
centers=[[-5,-5],[0,0],[5,5]]に数字を当てて、それぞれの点から1番近いものの数字ではないでしょうか。
例えば
[-5,-5] -> 0
[0,0] -> 1
[5,5] -> 2
のように数字を当てます。
次にあるXの点を選びます。
例えば、
[0.1,0.2]
するとこの点は[0,0]が最寄りなのでラベルは1になります。

（実際はこの逆のことをやっていて、）ラベル0の点を生成したいとします。
[-5,-5]を中心とする確率分布から1個点を選びます。
それをXに入れます。
0をlabelに入れます。

同様にラベル1の点を生成したいとします。
[0,0]を中心とする確率分布から1個点を選びます。
それをXに入れます。
1をlabelに入れます。

以後繰り返し。

中心が遠い場合

中心が近い場合

※なんと気づいたら修正線の機能が追加されていました。

投稿2017/12/13 02:29

編集2017/12/13 09:01

mkgrei

総合スコア8560

退会済みユーザー

2017/12/13 02:42

ありがとうございます。[[-5,-5],[0,0],[5,5]]に０〜２の1番近い数字を当てているということでしょうか？

magichan

2017/12/13 04:51 編集

実際に行っていることは、 0 ：中心(-5,-5)　標準偏差 1.0 のガウス分布 1 ：中心( 0, 0)　標準偏差 1.0 のガウス分布 2 ：中心( 5, 5)　標準偏差 1.0 のガウス分布という３つの分布からの乱数により、計1000個のデータを発生させ、そのデータを X に、そのデータがどの分布から生成されたのかをlabels_true に格納しているのかと思います。当然、分布が重なっていることもありますので、単純に近いとは少し違うかとおもいます。