クラスター分析で代表値の抽出

Question

Rでのクラスター分析について質問です。質問内容はタイトルの通りです。作業内容を説明すると、ある文献を参考にデータ処理を行っています。 Rでの主な作業は主成分分析を行い、そこで得られた主成分得点を元にクラスター分析を行うことです。（言葉で十分に説明できているか不明なのでここまでのコードを載せます。） ```R > df <- read.table("studydata.csv", header=T, sep=",", row.names=1) > sd <- scale(df) > sdf <- data.frame(sd) > pca <- prcomp(sdf, scale=T) > pcax <- data.frame(pca$x) > km <- kmeans(pcax, 5) ``` 5つのクラスターに分けました。ここで、 > 各クラスターの主成分の平均値に近いものを偏差と標準偏差の関係から抽出するとあるのですが具体的なアプローチ方法がわかりません。参考統計式の記載があったので載せます。 > クラスターXの第ni主成分の値：xi クラスターXの第ni主成分の平均値：μi クラスターXの第ni主成分の偏差：xi-μi クラスターXの第ni主成分の標準偏差：σi [X＝クラスター番号(①～⑤)、n＝主成分の番号(1,2,3,4)、i＝要素の番号(①：i＝1,…22、②：i＝1,…3、③：i＝1,…15、④：i＝1,…14、⑤：i＝1,…5)] **Σ(xi-μi/σi)＝各要素の偏差/標準偏差の値の合計値** ⇒最小となる要素ネットや統計に関する参考書等に目を通しましたが、知識が浅く理解に困っております。上記の計算をRで行えるのか、行える場合はコードを教えていただきたいです。

Answer

まずここでkmというオブジェクトには計算結果に纏わるいろんな情報がゴッソリまとまったものが入っています。strという関数でその概要を眺めることができます。以下は標準添付のサンプルデータで試してみた例。 

```R
str(km)
List of 9
 $ cluster     : int [1:150] 2 2 2 2 2 2 2 2 2 2 ...
 $ centers     : num [1:3, 1:4] 6.85 5.01 5.9 3.07 3.43 ...
  ..- attr(*, "dimnames")=List of 2
  .. ..$ : chr [1:3] "1" "2" "3"
  .. ..$ : chr [1:4] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width"
 $ totss       : num 681
 $ withinss    : num [1:3] 23.9 15.2 39.8
 $ tot.withinss: num 78.9
 $ betweenss   : num 603
 $ size        : int [1:3] 38 50 62
 $ iter        : int 2
 $ ifault      : int 0
 - attr(*, "class")= chr "kmeans"
```

たとえば元データがどのクラスターに割当てられたかはkm$clusterを見れば良さそうだと分かります。
クラスター1に所属するデータだけからなるサブセットを作るなら:

```R
sdf.sub1 <- sdf[km$cluster==1, ]
```

クラスターXのなんちゃらを計算してみたいならsdf.sub1を相手にすればいいはずです。

試行錯誤して手順の見当が付いたら、全クラスタについて同様の処理を実行する為のforループを回すスクリプトを書いてみる。できればsapplyという関数の使い方を覚えてみる。大体そんな流れになると思います。

関連した質問