質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

89.09%

Pythonで色のクラスタリングをしたいです。

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 2,296

mi56

score 14

前提・実現したいこと

Pythonでクラスタリングを勉強しています。
コードはhttps://github.com/joelgrus/data-science-from-scratch/blob/master/code/clustering.pyのを使用しています。
実現したいことは、画像の色にクラスタリングをかけて少ない色で画像を表示させたいです。
コード中ではK=5となっているので画像の色を5色で表現したいです。
現在は処理を行うと真っ黒の画像が表示させてしまいます。
mpimg.imreadが画像を配列にしているのはわかったのですがその後、どのような処理が行われているのかも教えていただきたいです。

発生している問題・エラーメッセージ

画像を指定して実行したみたのですがoverflowとなってしまい結果が出力されません。
またどのように改良すれば良いのかわからず困っています。

/Users/Desktop/Python19-5.py:35: RuntimeWarning: overflow encountered in ubyte_scalars
  return sum(v_i * w_i for v_i, w_i in zip(v, w))
/Users/Desktop/Python19-5.py:18: RuntimeWarning: overflow encountered in ubyte_scalars
  return [v_i - w_i for v_i, w_i in zip(v,w)]
/Users/Desktop/Python19-5.py:14: RuntimeWarning: overflow encountered in ubyte_scalars
  return [v_i + w_i for v_i, w_i in zip(v,w)]

該当のソースコード

from __future__ import division
import math, random
from functools import reduce
import re, math, random
from collections import defaultdict, Counter
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
#
# functions for working with vectors
#

def vector_add(v, w):
    """adds two vectors componentwise"""
    return [v_i + w_i for v_i, w_i in zip(v,w)]

def vector_subtract(v, w):
    """subtracts two vectors componentwise"""
    return [v_i - w_i for v_i, w_i in zip(v,w)]

def vector_sum(vectors):
    return reduce(vector_add, vectors)

def scalar_multiply(c, v):
    return [c * v_i for v_i in v]

# this isn't right if you don't from __future__ import division
def vector_mean(vectors):
    """compute the vector whose i-th element is the mean of the
    i-th elements of the input vectors"""
    n = len(vectors)
    return scalar_multiply(1/n, vector_sum(vectors))

def dot(v, w):
    """v_1 * w_1 + ... + v_n * w_n"""
    return sum(v_i * w_i for v_i, w_i in zip(v, w))

def sum_of_squares(v):
    """v_1 * v_1 + ... + v_n * v_n"""
    return dot(v, v)

def magnitude(v):
    return math.sqrt(sum_of_squares(v))

def squared_distance(v, w):
    return sum_of_squares(vector_subtract(v, w))

def distance(v, w):
    return math.sqrt(squared_distance(v, w))

class KMeans:
    def __init__(self, k):
        self.k = k          # CLUSTERの数
        self.means = None   # 各CLUSTERの重心

    def classify(self, input):
        # 入力されたノードのに一番近いCLUSTERの番号(0~k)を返す
        return min(range(self.k),
                   key=lambda i: squared_distance(input, self.means[i]))

    def train(self, inputs):
        # 各CLUSTERの重心をランダムに選出
        self.means = random.sample(inputs, self.k)
        # 各ノードがどのCLUSTERに属しているかのリストを初期化
        assignments = None

        while True:
            # 各ノードがどのCLUSTERに属しているかのリストを作成
            new_assignments = list(map(self.classify, inputs))

            # 上記の所属CLUSTERリストが変更していなかったら終了
            if assignments == new_assignments:
                return

            # 上記の所属CLUSTERリストを保持
            assignments = new_assignments

            # CLUSTER番号毎に重心を算出する処理を行う
            for i in range(self.k):
                # CLUSTER(i)に属しているノードリストを抽出
                i_points = [p for p, a in zip(inputs, assignments) if a == i]
                # 上のCLUSTER(i)のノードリストからCLUSTERの重心を算出
                if i_points:
                    self.means[i] = vector_mean(i_points)


# using clustering to recolor an image
#

def recolor_image(input_file, k=5):

    path_to_png_file = r"画像のある場所"
    img = mpimg.imread(path_to_png_file)
    top_row = img[0]
    top_left_pixel = top_row[0]
    red, green, blue = top_left_pixel
    pixels = [pixel for row in img for pixel in row]
    clusterer = KMeans(k)
    clusterer.train(pixels) # this might take a while

    def recolor(pixel):
        cluster = clusterer.classify(pixel) # index of the closest cluster
        return clusterer.means[cluster]     # mean of the closest cluster

    new_img = [[recolor(pixel) for pixel in row]
               for row in img]

    plt.imshow(new_img)
    plt.axis('off')
    plt.show()

recolor_image("IMG_2155.jpg")

補足情報(言語/FW/ツール等のバージョンなど)

Python3.5

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • coco_bauer

    2017/06/02 16:26

    「真っ黒の画像が表示」との事ですが、その画像で使われている色は何種類ありますか?

    キャンセル

回答 1

checkベストアンサー

0

3.x用のコードは以下code-python3になりますので、以下で試してみてはいかがでしょうか?
https://github.com/joelgrus/data-science-from-scratch/blob/master/code-python3/clustering.py

 実行結果について

まず、Warningについては
Runtime Warning overflow encountered in ubyte_scalars

You shouldn't worry about these, what they are essentially telling you is that the range for the uint_8 (unsigned integer) type defined by numpy and generally used for image files, has simply exceeded its acceptable range.

と回答あるので、実行結果には影響ないと思われます。

また、コードの実行結果についてですが
img = mpimg.imread(path_to_png_file)img = mpimg.imread(input_file)と修正し
lenaのカラー画像を64x64に縮小したpng画像で試したところ、以下のような結果を得られました。正常に動作しているようです。

イメージ説明

コード詳細は私には説明できませんが、画像サイズや色数などに制限はないでしょうか?

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/06/02 15:06

    試してみましたが結果に変化はありませんでした。

    キャンセル

  • 2017/06/02 18:05

    実行結果を追記しました。コードについては書籍に説明など書かれていないでしょうか?確認ください。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 89.09%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる