質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.93%

コードがどのように動いて出力結果が出ているのか理解できなくて困っています。

解決済

回答 2

投稿

  • 評価
  • クリップ 0
  • VIEW 1,154

mi56

score 14

前提・実現したいこと

Pythonでk平均法について勉強しようとしています。
本を見ながら進めており、参考コードは以下のURLのgithub上にあります。
https://github.com/joelgrus/data-science-from-scratch/blob/master/code/clustering.py

発生している問題・エラーメッセージ

このコードを実行したところ、K=3とし3つのクラスタの中心点が結果として表示されているのですがコードがどのように動作して結果が導き出されてているのか分からなくて困っています。
基本的な文法については理解しているつもりです。

該当のソースコード

from __future__ import division
import math, random
from functools import reduce
import re, math, random
from collections import defaultdict, Counter

# 
# functions for working with vectors
#

def vector_add(v, w):
    """adds two vectors componentwise"""
    return [v_i + w_i for v_i, w_i in zip(v,w)]

def vector_subtract(v, w):
    """subtracts two vectors componentwise"""
    return [v_i - w_i for v_i, w_i in zip(v,w)]

def vector_sum(vectors):
    return reduce(vector_add, vectors)

def scalar_multiply(c, v):
    return [c * v_i for v_i in v]

# this isn't right if you don't from __future__ import division
def vector_mean(vectors):
    """compute the vector whose i-th element is the mean of the
    i-th elements of the input vectors"""
    n = len(vectors)
    return scalar_multiply(1/n, vector_sum(vectors))

def dot(v, w):
    """v_1 * w_1 + ... + v_n * w_n"""
    return sum(v_i * w_i for v_i, w_i in zip(v, w))

def sum_of_squares(v):
    """v_1 * v_1 + ... + v_n * v_n"""
    return dot(v, v)

def magnitude(v):
    return math.sqrt(sum_of_squares(v))

def squared_distance(v, w):
    return sum_of_squares(vector_subtract(v, w))

def distance(v, w):
    return math.sqrt(squared_distance(v, w))

class KMeans:
    """performs k-means clustering"""

    def __init__(self, k):
        self.k = k          # number of clusters
        self.means = None   # means of clusters

    def classify(self, input):
        """return the index of the cluster closest to the input"""
        return min(range(self.k),
                   key=lambda i: squared_distance(input, self.means[i]))

    def train(self, inputs):

        self.means = random.sample(inputs, self.k)
        #print(self.means)
        assignments = None

        while True:
            # Find new assignments
            new_assignments = map(self.classify, inputs)

            # If no assignments have changed, we're done.
            if assignments == new_assignments:                
                return

            # Otherwise keep the new assignments,
            assignments = new_assignments    

            for i in range(self.k):
                i_points = [p for p, a in zip(inputs, assignments) if a == i]
                # avoid divide-by-zero if i_points is empty
                if i_points:                                
                    self.means[i] = vector_mean(i_points)    

if __name__ == "__main__":

    inputs = [[-14,-5],[13,13],[20,23],[-19,-11],[-9,-16],[21,27],[-49,15],[26,13],[-46,5],[-34,-1],[11,15],[-49,0],[-22,-16],[19,28],[-12,-8],[-13,-19],[-41,8],[-11,-6],[-25,-9],[-18,-3]]


    random.seed(0) # so you get the same results as me
    clusterer = KMeans(3)

    try:
        clusterer.train(inputs)
    except:
        val =+ 1
    print ("3-means:")
    print (clusterer.means)

  3-means:
[[-25.857142857142854, -4.714285714285714], [19, 28], [13, 13]]

補足情報(言語/FW/ツール等のバージョンなど)

Python3.6を使用しています。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

+3

まずそのアルゴリズムが何をしているかのイメージを掴んで下さい。 クラスタリングの定番アルゴリズム「K-means法」をビジュアライズしてみた がわかりやすいと思います。

次にアルゴリズムの詳細を理解してください。Wikipedia でいいと思いますが、これで分かりにくければもう少し調べてください。

アルゴリズムを把握すれば自分で作れると思います。自分で作れるなら人の書いたコードも読めます。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

checkベストアンサー

+1

まずはじめに、このコードはPython3では

            new_assignments = map(self.classify, inputs)


の部分を

            new_assignments = list(map(self.classify, inputs))


としないと動作しない気がします。

で、どのように動作しているかですが、
ベクトル演算を行う為の関数群が前半を占めており複雑そうに見えますが、
後半の実際にK-Means法を行っている部分はそれほど複雑ではありません。

ベクトル演算処理を Numpy で行うと、前半部が不要になる為もう少しスッキリと記述できると思います。

後半部でやっていることは 一般的なK-Means法のアルゴリズムの通り

  1. 各クラスタの重心点をランダムに選出
  2. ノード毎に各クラスタの重心との距離を求め、一番近いクラスタを割り当てる
  3. クラスタに割り振ったノードを基に、各クラスタの重心を算出
  4. 新しく求めた各クラスタの重心を基に、ノードを再度クラスタに割り当てる
  5. 前回のクラスタ割り当てから変更が無かったら終了。変更があった場合は再度 3. 以降を繰り返す。

です。
上記の 2.4.で行っている、ノードをクラスタに割り当てる部分を KMeans.classify() が行っており、 classify()関数の呼び出しを含めて上記のアルゴリズム全体を行っているのが KMeans.train()となります。

KMeansクラスのコードにコメントを追加したものを下に記述したましたので、確認してみてください。

class KMeans:
    def __init__(self, k):
        self.k = k          # CLUSTERの数
        self.means = None   # 各CLUSTERの重心

    def classify(self, input):
        # 入力されたノードのに一番近いCLUSTERの番号(0~k)を返す
        return min(range(self.k),
                   key=lambda i: squared_distance(input, self.means[i]))

    def train(self, inputs):
        # 各CLUSTERの重心をランダムに選出
        self.means = random.sample(inputs, self.k)
        # 各ノードがどのCLUSTERに属しているかのリストを初期化
        assignments = None

        while True:
            # 各ノードがどのCLUSTERに属しているかのリストを作成
            new_assignments = list(map(self.classify, inputs))

            # 上記の所属CLUSTERリストが変更していなかったら終了
            if assignments == new_assignments:
                return

            # 上記の所属CLUSTERリストを保持
            assignments = new_assignments

            # CLUSTER番号毎に重心を算出する処理を行う
            for i in range(self.k):
                # CLUSTER(i)に属しているノードリストを抽出
                i_points = [p for p, a in zip(inputs, assignments) if a == i]
                # 上のCLUSTER(i)のノードリストからCLUSTERの重心を算出
                if i_points:
                    self.means[i] = vector_mean(i_points)

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.93%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る