質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.51%

  • Python

    7974questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • Python 2.7

    1264questions

    Python 2.7は2.xシリーズでは最後のメジャーバージョンです。Python3.1にある機能の多くが含まれています。

pythonでのSOM 自己組織化マップ

受付中

回答 2

投稿 編集

  • 評価
  • クリップ 1
  • VIEW 737

kaErita_E

score 4

pythonで下図のようなファイルを基にSOMを作成したいと考えています.

イメージ説明
参考:https://qiita.com/T_Shinaji/items/609fe9aabd99c287b389

import numpy as np
from matplotlib import pyplot as plt

class SOM():

    def __init__(self, teachers, N, seed=None):
        self.teachers = np.array(teachers)
        self.n_teacher = self.teachers.shape[0]
        self.N = N
        if not seed is None:
            np.random.seed(seed)

        x, y = np.meshgrid(range(self.N), range(self.N))
        self.c = np.hstack((y.flatten()[:, np.newaxis],
                            x.flatten()[:, np.newaxis]))
        self.nodes = np.random.rand(self.N*self.N,
                                    self.teachers.shape[1])

    def train(self):
        for i, teacher in enumerate(self.teachers):
            bmu = self._best_matching_unit(teacher)
            d = np.linalg.norm(self.c - bmu, axis=1)
            L = self._learning_ratio(i)
            S = self._learning_radius(i, d)
            self.nodes += L * S[:, np.newaxis] * (teacher - self.nodes)
        return self.nodes

    def _best_matching_unit(self, teacher):
        #compute all norms (square)
        norms = np.linalg.norm(self.nodes - teacher, axis=1)
        bmu = np.argmin(norms) #argment with minimum element 
        return np.unravel_index(bmu,(self.N, self.N))

    def _neighbourhood(self, t):#neighbourhood radious
        halflife = float(self.n_teacher/4) #for testing
        initial  = float(self.N/2)
        return initial*np.exp(-t/halflife)

    def _learning_ratio(self, t):
        halflife = float(self.n_teacher/4) #for testing
        initial  = 0.1
        return initial*np.exp(-t/halflife)

    def _learning_radius(self, t, d):
        # d is distance from BMU
        s = self._neighbourhood(t)
        return np.exp(-d**2/(2*s**2))


N = 20        
//このteachersにコレクションとして図のようなふぁい
teachers = np.random.rand(10000, 3)
som = SOM(teachers, N=N, seed=10)

# Initial map
plt.imshow(som.nodes.reshape((N, N, 3)),
           interpolation='none')
plt.show()

# Train
som.train()

# Trained MAP
plt.imshow(som.nodes.reshape((N, N, 3)),
           interpolation='none')
plt.show()      

//追記
申し訳ございません途中で送信してしまいました.
続きを追記させていただきます.

上記のプログラムのteachers部分に図のようなコレクションを挿入したく下記のようなプログラムに書き直しました.

import numpy as np
import csv
data = []

with open("data.csv","rb") as f:
    reader = csv.reader(f)
    header = next(reader)

    for row in reader:
        data.append(row)

from matplotlib import pyplot as plt

class SOM():

    def __init__(self, teachers, N, seed=None):
        self.teachers = np.array(teachers)
        self.n_teacher = self.teachers.shape[0]
        self.N = N
        if not seed is None:
            np.random.seed(seed)

        x, y = np.meshgrid(range(self.N), range(self.N))
        self.c = np.hstack((y.flatten()[:, np.newaxis],
                            x.flatten()[:, np.newaxis]))
        self.nodes = np.random.rand(self.N*self.N,
                                    self.teachers.shape[1])

    def train(self):
        for i, teacher in enumerate(self.teachers):
            bmu = self._best_matching_unit(teacher)
            d = np.linalg.norm(self.c - bmu, axis=1)
            L = self._learning_ratio(i)
            S = self._learning_radius(i, d)
            self.nodes += L * S[:, np.newaxis] * (teacher - self.nodes)
        return self.nodes

    def _best_matching_unit(self, teacher):
        #compute all norms (square)
        norms = np.linalg.norm(self.nodes - teacher, axis=1)
        bmu = np.argmin(norms) #argment with minimum element 
        return np.unravel_index(bmu,(self.N, self.N))

    def _neighbourhood(self, t):#neighbourhood radious
        halflife = float(self.n_teacher/4) #for testing
        initial  = float(self.N/2)
        return initial*np.exp(-t/halflife)

    def _learning_ratio(self, t):
        halflife = float(self.n_teacher/4) #for testing
        initial  = 0.1
        return initial*np.exp(-t/halflife)

    def _learning_radius(self, t, d):
        # d is distance from BMU
        s = self._neighbourhood(t)
        return np.exp(-d**2/(2*s**2))


N = 20        
teachers = data
som = SOM(teachers, N=N, seed=10)

# Initial map
plt.imshow(som.nodes.reshape((N, N, 3)),interpolation='none')
plt.show()

# Train
som.train()

# Trained MAP
plt.imshow(som.nodes.reshape((N, N, 3)),
           interpolation='none')
plt.show()     


しかし下記のようなエラーがでてしまいます.
実際のコレクションは33×500の行列なので,(N, N, 3)部分を(N, N, 33)にしたりしてみましたがうまくいきませんでした.

Traceback (most recent call last):
  File "soms.py", line 65, in <module>
    plt.imshow(som.nodes.reshape((N, N, 3)),interpolation='none')
ValueError: cannot reshape array of size 13200 into shape (20,20,3)

python初学者のため,根本的な話なのかもしれませんがどうかご教授いただけると幸いです.

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • fuzzball

    2018/01/12 12:48

    csvファイルを読み込んで、それをコレクションにしたいという質問でしょうか?そうであれば、そういう質問に書き換えた方が良いと思います。(SOMがどうとか全く関係ない)

    キャンセル

  • kaErita_E

    2018/01/12 14:01

    コメントありがとうございます.誠に申し訳ございません,途中で送信してしまっていたようです.確認を怠り申し訳ございません.

    キャンセル

  • fuzzball

    2018/01/12 14:14

    (33, 500)か(500, 33)ではないのでしょうか?なぜコードではN=20にしているのでしょうか?

    キャンセル

  • kaErita_E

    2018/01/12 14:31

    コメントありがとうございます.N=20は競合層のニューロンの数ではないかとおもい,私も20に指定しました.

    キャンセル

回答 2

+2

こんにちは. 

私もpythonで同じ分析を行おうとして,同じ問題に当たりました.
ちょうどそれについて検索をかけてどうにか解決できないかと探っていたところ, こちらにたどり着きました。

先ほど, 問題が解決できたので参考にしていただければと思います.

plt.imshow(som.nodes.reshape((N, N, 3)),interpolation='none')

の部分のsom.nodes.reshape((N, N, 3))について説明をします.

N=20 の意味は, プロットされるマスを20×20で表現することを意味しますので
あなたの適用したいデータを(500,33,3)とするような記述は正しくありません.
つまり, Nはあなたのデータを表現するものではなく, マップのマスを調整するものです.

重要な点はsom.nodes.reshape((N, N, 3))の3の部分です.
これは3次元の意味です.すなわち,SOMのマップを示すためには,あなたの用いたいデータを
3次元に圧縮する必要があるということです.

あなたのデータでいいますと観測変数が33個ある場合は,
あなたのデータが33次元で表現されていることを意味します.

つまり,33次元を3次元に圧縮する必要があるということです.

次元圧縮をする方法としては,主成分分析,カーネル主成分分析などがあります.

あなたのデータをSOMに適用するためには,この分析にかけた後に出力されるデータを
適用する必要があります.

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

0

SOMとしては33次元の特徴を受け入れることは可能です.
som.nodes.reshape((N, N, 3))
は縦横で20x20のノード(マップの各要素)がRGBの3次元の特徴を持っているため
このように処理して色の並びを可視化した次第です.

33次元の場合はノードが33次元の特徴を持っているため,
トレーニング後のマップの並びを色で表現することができません.
そのため,エラーが発生しています.
Chinatsu様のご回答のように,前処理で3次元に圧縮したり,
トレーニング後のノードの特徴量を3次元に圧縮することで色として並びを確認できます.

しかし,33次元のデータを類似した順に並べたいのであれば,次元圧縮をしたくないと思われます.
そのため,33次元の場合は

# target_dataは1行33列のnumpy array
coordinate = som._best_matching_unit(target_data)


とすることで,target_dataに近い要素2次元マップ上の座標が得られます.
このようにして,2次元マップ上のどこに割り当てられたかをそれぞれのデータで確認することで
SOMによって類似した順で2次元平面上に並べた結果がどのようになったかを確認できます.

サンプルが色を並べたデータであるため混乱を生じさせて申し訳ありません.
SOMは3次元以上の特徴を2次元平面上に並べることは可能です.

後日Qiitaの記事を更新します.

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.51%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る

  • Python

    7974questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • Python 2.7

    1264questions

    Python 2.7は2.xシリーズでは最後のメジャーバージョンです。Python3.1にある機能の多くが含まれています。