質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

91.06%

  • Python

    5120questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Xとlabels_trueの値がそれぞれ何なのかわからない

解決済

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 104
退会済みユーザー

退会済みユーザー

Xとlabels_trueの値がそれぞれ何なのかわからないです。

import numpy as np
import pandas as pd
from sklearn.datasets import make_blobs
%matplotlib inline
import matplotlib.pyplot as plt

X, labels_true = make_blobs(
    n_samples=1000,         
    centers=[[-5,-5],[0,0],[5,5]], 
    cluster_std=1.0,                
    random_state=0)

print(X)
print(labels_true)

df = pd.DataFrame(np.hstack([X, labels_true.reshape(len(labels_true),1)]),columns=["X0","X1","label"])
col = df.label.map({0:'b', 1:'g', 2:'r'})
df.plot(x='X0', y='X1', kind='scatter', c=col, colorbar=False, figsize=(3,3))


というサンプルコードがあって、
print(X)では

[[-6.04855297 -6.42001794]
 [-3.23594765 -4.59984279]
 [ 4.50420451  6.21657771]
 ..., 
 [ 0.60711167 -1.04817041]
 [ 1.63159743  0.37775917]
 [ 4.02759711  6.34622107]]


と出力されて、print(labels_true)では

[0 0 2 1 2 1 0 0 2 1 1 0 2 0 2 0・・・]


と出力されました。
一見するとone-hot encodingのようですが、何の次元を取っているのかわかりません。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+1

修正:
中心の点が十分離れている場合、以下修正削除したコメントは正しいのですが、紛らわしいので消しました。
centers=[[-5,-5],[0,0],[5,5]]に数字を当てて、それぞれの点から1番近いものの数字ではないでしょうか。 例えば [-5,-5] -> 0 [0,0] -> 1 [5,5] -> 2 のように数字を当てます。 次にあるXの点を選びます。 例えば、 [0.1,0.2] するとこの点は[0,0]が最寄りなのでラベルは1になります。

実際はこの逆のことをやっていて、)ラベル0の点を生成したいとします。
[-5,-5]を中心とする確率分布から1個点を選びます。
それをXに入れます。
0をlabelに入れます。

同様にラベル1の点を生成したいとします。
[0,0]を中心とする確率分布から1個点を選びます。
それをXに入れます。
1をlabelに入れます。

以後繰り返し。

中心が遠い場合
遠い場合

中心が近い場合
近い場合

※なんと気づいたら修正線の機能が追加されていました。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/12/13 11:42

    ありがとうございます。[[-5,-5],[0,0],[5,5]]に0〜2の1番近い数字を当てているということでしょうか?

    キャンセル

  • 2017/12/13 13:51 編集

    実際に行っていることは、

    0 :中心(-5,-5) 標準偏差 1.0 のガウス分布
    1 :中心( 0, 0) 標準偏差 1.0 のガウス分布
    2 :中心( 5, 5) 標準偏差 1.0 のガウス分布

    という3つの分布からの乱数により、計1000個のデータを発生させ、
    そのデータを X に、そのデータがどの分布から生成されたのかをlabels_true に格納しているのかと思います。
    当然、分布が重なっていることもありますので、単純に近いとは少し違うかとおもいます。

    キャンセル

  • 2017/12/13 14:03

    magichanさん、仰る通りです。
    誤解を与えかねない説明になっていますね。
    あとで修正いたします。

    キャンセル

  • 2017/12/13 18:04

    修正しました。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 91.06%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る

  • Python

    5120questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。