質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.01%

python3 ライブラリを使わないK-MEANSの実装しています。

受付中

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 1,308

SHOWHEYHEI

score 6

学校でK-MEANS(k平均法)をpython3で実装する課題をやっています。

クラスタリングの箇所がうまくいかなくて悩んでいます。

ipython-notebookを用いています。

irisデータをクラスタリングします。

↓最初にユークリッド関数を定義して

def EucDist(a,b)
    """
    ユーグリット距離を求める関数
    """
    return np.sqrt(np.power(a-b, 2).sum())


↓irisデータを読み込んで

f = open("iris.data","r")
text = f.read()
f.close


↓カンマで区切って

a=text.replace("\n",",")#改行をカンマに変える
b=a.split(",")#カンマで区切る
c=[b[i:i+5] for i in range(0,752,5)]#4次元の座標データとクラスター
c


↓座標点とクラスに分けて

data=[]
for i in range(150):
    i=i*5
    cb = [[float(b[i]),float(b[i+1]),float(b[i+2]),float(b[i+3])],b[i+4]]
    data.append(cb)
data


↓座標点だけ取りだして

cd = []#irisデータの座表点のみ格納するリスト
for i in range(len(data)):
    cd.append(data[i][0])
cd


↓重心の初期値をirisデータからランダムに選んで

k=3
cent=[]
for i in range(k):
    cent.append(random.choice(cd))#cdからランダムに重心を3つ取り出す
cent


↓クラスタリング

cmp=[]#ユークリッド距離を一時的に格納するリスト
k0=[]#クラスタ1を格納するリスト
k1=[]#クラスタ2を格納するリスト
k2=[]#クラスタ3を格納するリスト
for i in range(len(cd)):
    a=np.array(cd[i])#irisデータの座標

    for j in range(k):
        b=np.array(cent[j])#初期の重心値

        if len(cmp) != 3:#cmpには入っているデータ数が3になるまでcontinue文以下の処理を無視
            continue
            if cmp.index(min(cmp)) == 0:
                k0.append(cent[0])#
                cmp[:]
            elif cmp.index(min(cmp)) == 1:
                k1.append(cent[1])
                cmp[:]
            else:
                k2.append(cent[2])
                cmp[:]
        else:
            cmp.append(EucDist(a,b))#ユークリッド距離を求め、結果をリストcmpに格納

print("クラスタ1: ",k0)
print("クラスタ2: ",k1)
print("クラスタ3: ",k2)


実行すると各クラスタのリストに何も要素が入らなかったです。

この後、各リストに入っている座標の平均を求め、それを新たな重心値として上記のソースコードの処理
を繰り返したいんですが、どうすればいいでしょうか。

意味のわからない説明で申し訳有りません。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • ikuwow

    2016/01/19 09:59

    ややコードが見づらいので、Markdown記法でシンタックスハイライトしていただけると見やすくなるかと思います。

    キャンセル

回答 1

+3

if len(cmp) != 3:#cmpには入っているデータ数が3になるまでcontinue文以下の処理を無視
            continue
            if cmp.index(min(cmp)) == 0:
                k0.append(cent[0])#
                cmp[:]
            elif cmp.index(min(cmp)) == 1:
                k1.append(cent[1])
                cmp[:]
            else:
                k2.append(cent[2])
                cmp[:]
        else:
            cmp.append(EucDist(a,b))#ユークリッド距離を求め、結果をリストcmpに格納

if len(cmp) != 3: の直後に continue が有るので、continueの次の行~上記最後のelse:の直前行までが全く実行されないプログラムになってます。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2016/01/18 20:57

    修正するとしたら具体的にどうすればいいですか?

    キャンセル

  • 2016/01/19 14:33

    #cmpには入っているデータ数が3になるまでcontinue文以下の処理を無視
    のコメントが処理したいことの意図だとするなら、

    continue 行を消して、
    3か所の cmp[:] となってる行を cmp=[] とすると、期待通りの動作になるのではないかと思いますよ。

    キャンセル

  • 2016/01/19 19:58

    あと、if len(cmp) != 3: → if len(cmp) == 3: の修正も必要でした。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.01%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる