Rでのクラスター分析について質問です。
質問内容はタイトルの通りです。
作業内容を説明すると、ある文献を参考にデータ処理を行っています。
Rでの主な作業は主成分分析を行い、そこで得られた主成分得点を元にクラスター分析を行うことです。(言葉で十分に説明できているか不明なのでここまでのコードを載せます。)
R
1> df <- read.table("studydata.csv", header=T, sep=",", row.names=1) 2> sd <- scale(df) 3> sdf <- data.frame(sd) 4> pca <- prcomp(sdf, scale=T) 5> pcax <- data.frame(pca$x) 6> km <- kmeans(pcax, 5)
5つのクラスターに分けました。
ここで、
各クラスターの主成分の平均値に近いものを偏差と標準偏差の関係から抽出する
とあるのですが具体的なアプローチ方法がわかりません。
参考統計式の記載があったので載せます。
クラスターXの第ni主成分の値:xi
クラスターXの第ni主成分の平均値:μi
クラスターXの第ni主成分の偏差:xi-μi
クラスターXの第ni主成分の標準偏差:σi
[X=クラスター番号(①~⑤)、n=主成分の番号(1,2,3,4)、i=要素の番号(①:i=1,…22、②:i=1,…3、③:i=1,…15、④:i=1,…14、⑤:i=1,…5)]
Σ(xi-μi/σi)=各要素の偏差/標準偏差の値の合計値
⇒最小となる要素
ネットや統計に関する参考書等に目を通しましたが、知識が浅く理解に困っております。
上記の計算をRで行えるのか、行える場合はコードを教えていただきたいです。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2017/12/23 12:49
2017/12/23 13:04
2018/01/06 08:03