質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.40%

  • Python 3.x

    7968questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

3つのクラスタに分けて表示させたいです

解決済

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 546

mi56

score 6

前提・実現したいこと

Pythonでクラスタリングについて勉強しています。
コードはhttps://github.com/joelgrus/data-science-from-scratch/blob/master/code/clustering.py
にあります。
現段階でできているのはクラスタの中心を求めること、クラスタリングせずにグラフへの表示です。
したいことは3つのクラスタに分けてクラスタ毎にクラスタの点の種類を変更して表示したいです。

発生している問題・エラーメッセージ

3つのクラスタに分けることができません。

該当のソースコード

from __future__ import division
#from linear_algebra import squared_distance, vector_mean, distance
import math, random
import matplotlib.image as mpimg
import matplotlib.pyplot as plt
from functools import reduce
import re, math, random
from collections import defaultdict, Counter

# 
# functions for working with vectors
#

def vector_add(v, w):
    """adds two vectors componentwise"""
    return [v_i + w_i for v_i, w_i in zip(v,w)]

def vector_subtract(v, w):
    """subtracts two vectors componentwise"""
    return [v_i - w_i for v_i, w_i in zip(v,w)]

def vector_sum(vectors):
    return reduce(vector_add, vectors)

def scalar_multiply(c, v):
    return [c * v_i for v_i in v]

# this isn't right if you don't from __future__ import division
def vector_mean(vectors):
    """compute the vector whose i-th element is the mean of the
    i-th elements of the input vectors"""
    n = len(vectors)
    return scalar_multiply(1/n, vector_sum(vectors))

def dot(v, w):
    """v_1 * w_1 + ... + v_n * w_n"""
    return sum(v_i * w_i for v_i, w_i in zip(v, w))

def sum_of_squares(v):
    """v_1 * v_1 + ... + v_n * v_n"""
    return dot(v, v)

def magnitude(v):
    return math.sqrt(sum_of_squares(v))

def squared_distance(v, w):
    return sum_of_squares(vector_subtract(v, w))

def distance(v, w):
    return math.sqrt(squared_distance(v, w))

class KMeans:
    """performs k-means clustering"""

    def __init__(self, k):
        self.k = k          # number of clusters
        self.means = None   # means of clusters


    def classify(self, input):
        """return the index of the cluster closest to the input"""
        #print(range(self.k))
        #print( min(range(self.k),
                   #key=lambda i: squared_distance(input, self.means[i])), squared_distance())

        return min(range(self.k),
                   key=lambda i: squared_distance(input, self.means[i]))

    def train(self, inputs):

        self.means = random.sample(inputs, self.k)
        #print(self.means)
        assignments = None

        while True:
            # Find new assignments
            new_assignments = map(self.classify, inputs)

            # If no assignments have changed, we're done.
            if assignments == new_assignments:                
                return

            # Otherwise keep the new assignments,
            assignments = new_assignments    

            for i in range(self.k):
                i_points = [p for p, a in zip(inputs, assignments) if a == i]
                # avoid divide-by-zero if i_points is empty
                if i_points:                                
                    self.means[i] = vector_mean(i_points)    


if __name__ == "__main__":

    inputs = [[-14,-5],[13,13],[20,23],[-19,-11],[-9,-16],[21,27],[-49,15],[26,13],[-46,5],[-34,-1],[11,15],[-49,0],[-22,-16],[19,28],[-12,-8],[-13,-19],[-41,8],[-11,-6],[-25,-9],[-18,-3]]


    random.seed(0) # so you get the same results as me
    clusterer = KMeans(3)
    try:
        clusterer.train(inputs)
    except:
        val =+ 1
    print ("3-means:")
    print (clusterer.means)

#first = [-14,13,20,-19,-9,21,-49,26,-46,-34,11,-49,-22,19,-12,-13,-41,-11,-25,-18]
#second = [-5,13,23,-11,-16,27,15,13,5,-1,15,0,-16,28,-8,-19,8,-6,-9,-3,]

first,second = zip(*inputs)
plt.scatter(first,second)
plt.show()

補足情報(言語/FW/ツール等のバージョンなど)

Pyhon3.5

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+1

とりあえずシンプルな方法として、以下のようにクラスター毎に色分けするのが簡単ではないでしょうか。

if __name__ == "__main__":
    inputs = [[-14,-5],[13,13],[20,23],[-19,-11],[-9,-16],[21,27],[-49,15],[26,13],[-46,5],[-34,-1],[11,15],[-49,0],[-22,-16],[19,28],[-12,-8],[-13,-19],[-41,8],[-11,-6],[-25,-9],[-18,-3]]

    random.seed(0)
    clusterer = KMeans(3)
    clusterer.train(inputs)

    # 各クラスタ毎の色を定義
    COLORS = ['red','blue','green']
    # 中心位置をプロット
    for cls, vec in enumerate(clusterer.means):
        plt.scatter(*vec, c=COLORS[cls], marker='x')
    # 各データをプロット
    for cls, vec in zip(map(clusterer.classify, inputs), inputs):
        plt.scatter(*vec, c=COLORS[cls], marker='.')
    plt.show()


イメージ説明

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/05/25 15:35 編集

    あと質問のコードをそのままPython35で動作させたところ、無限ループにはまった為、修正して使用しました。修正内容は
    https://teratail.com/questions/74908
    の質問の解答に記述しました。

    キャンセル

  • 2017/05/30 18:21

    回答ありがとうございます。
    inputを入力とした時クラスタリングを行うと横軸20~30,縦軸10~30で1グループ、横軸-25~ -10,縦軸-20~0で1グループ、横軸-40~ -50,縦軸0~20で1グループになると思ったのですがなぜ右上だけて2グループに分けられているのか教えていただきたいです。

    キャンセル

  • 2017/05/30 19:09

    k-mean法は「初期値依存性」という問題があり、初期値のとり方によって全く異なる結果が得られます。
    ですので、今回は初期値の値により「たまたまこのような結果が得られた」とお考えください。(初期値のとり方によっては、mi56さんの想定している結果になることもあります。)

    なお、現在のコードは
    random.seed(0)
    となっており、毎回同じ乱数表を使っているため、結果も毎回同じとなります。
    random.seed()
    として起動毎に違う乱数を使用するようにすると結果が毎回変わります。何度か実行してみて望ましい(と思われる)結果を採用するとよいのではないでしょうか。

    初期値のとり方を改良した 「k-mean++ 」などもありますので、検索してみてください。

    キャンセル

  • 2017/05/30 23:30

    丁寧な説明ありがとうございました。
    seedの値を変えて試してみたいと思います。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.40%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

同じタグがついた質問を見る

  • Python 3.x

    7968questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。