クラスタリングの分散値

###やりたいこと
csvデータをクラスタリングし、クラスごとの分散値平均値を出す。
###できていること
クラスタリング、平均値を出すこと
###できていないこと,試したこと
分散値を出すこと
以下のコードで試してみたがvariance()でエラーが出た。

python
1import pandas as pd
2import numpy as np
3import matplotlib.pyplot as plt
4from sklearn import datasets
5from sklearn.cluster import KMeans
6# データの読み込み
7f_data = pd.read_csv("csv/4-5/potential4-5.csv", encoding="utf-8")
8
9# データをラベルと入力データに分離する (使うのは最後)
10y_data = f_data.loc[:,["angle"]]
11x_data = f_data.iloc[:, range(0,400)]
12#print(x_data.head(20) )
13
14input_data = x_data.iloc[:, range(0,400)].values
15
16
17pred = KMeans(n_clusters=30).fit_predict(input_data)
18x_data["cluster"] = pred
19
20
21print(x_data['cluster'].value_counts())
22print(x_data[x_data['cluster']==0].mean())
23print(x_data[x_data['cluster']==0].variance())
24print(x_data[x_data['cluster']==1].mean())
25print(x_data[x_data['cluster']==1].variance())
26print(x_data[x_data['cluster']==2].mean())
27print(x_data[x_data['cluster']==2].variance())
28print(x_data[x_data['cluster']==3].mean())
29print(x_data[x_data['cluster']==3].variance())
30print(x_data[x_data['cluster']==4].mean())
31print(x_data[x_data['cluster']==4].variance())
32print(x_data[x_data['cluster']==5].mean())
33print(x_data[x_data['cluster']==5].variance())
34print(x_data[x_data['cluster']==6].mean())
35print(x_data[x_data['cluster']==6].variance())
36print(x_data[x_data['cluster']==7].mean())
37print(x_data[x_data['cluster']==7].variance())
38print(x_data[x_data['cluster']==8].mean())
39print(x_data[x_data['cluster']==8].variance())
40print(x_data[x_data['cluster']==9].mean())
41print(x_data[x_data['cluster']==9].variance())
42print(x_data[x_data['cluster']==10].mean())
43print(x_data[x_data['cluster']==10].variance())
44print(x_data[x_data['cluster']==11].mean())
45print(x_data[x_data['cluster']==11].variance())
46print(x_data[x_data['cluster']==12].mean())
47print(x_data[x_data['cluster']==12].variance())
48print(x_data[x_data['cluster']==13].mean())
49print(x_data[x_data['cluster']==13].variance())
50print(x_data[x_data['cluster']==14].mean())
51print(x_data[x_data['cluster']==14].variance())
52print(x_data[x_data['cluster']==15].mean())
53print(x_data[x_data['cluster']==15].variance())
54print(x_data[x_data['cluster']==16].mean())
55print(x_data[x_data['cluster']==16].variance())
56print(x_data[x_data['cluster']==17].mean())
57print(x_data[x_data['cluster']==17].variance())
58print(x_data[x_data['cluster']==18].mean())
59print(x_data[x_data['cluster']==18].variance())
60print(x_data[x_data['cluster']==19].mean())
61print(x_data[x_data['cluster']==19].variance())
62print(x_data[x_data['cluster']==20].mean())
63print(x_data[x_data['cluster']==20].variance())
64print(x_data[x_data['cluster']==21].mean())
65print(x_data[x_data['cluster']==21].variance())
66print(x_data[x_data['cluster']==22].mean())
67print(x_data[x_data['cluster']==22].variance())
68print(x_data[x_data['cluster']==23].mean())
69print(x_data[x_data['cluster']==23].variance())
70print(x_data[x_data['cluster']==24].mean())
71print(x_data[x_data['cluster']==24].variance())
72print(x_data[x_data['cluster']==25].mean())
73print(x_data[x_data['cluster']==25].variance())
74print(x_data[x_data['cluster']==26].mean())
75print(x_data[x_data['cluster']==26].variance())
76print(x_data[x_data['cluster']==27].mean())
77print(x_data[x_data['cluster']==27].variance())
78print(x_data[x_data['cluster']==28].mean())
79print(x_data[x_data['cluster']==28].variance())
80print(x_data[x_data['cluster']==29].mean())
81print(x_data[x_data['cluster']==29].variance())
82print(x_data[x_data['cluster']==30].mean())
83print(x_data[x_data['cluster']==30].variance())

エラーの内容は以下です。

File "kmeans.py", line 64, in <module>
    print(x_data[x_data['cluster']==0].variance())
  File "C:\Users\admin\Anaconda3\envs\tensorflow\lib\site-packages\pandas\core\generic.py", line 5179, in __getattr__
    return object.__getattribute__(self, name)
AttributeError: 'DataFrame' object has no attribute 'variance'

よろしくお願いします

tetsunosuke

2019/11/11 06:28

実際のCSVデータがどんなものかわからず細かい検証はできませんが、var() ではないのかな？

uedayuya

2019/11/11 06:50

お答えいただきありがとうございます。無事に分散値を出すことができました

行動規範の内容に同意します

回答1件

自己解決

以下のコードで問題がなかった

python
1import pandas as pd
2import numpy as np
3import matplotlib.pyplot as plt
4from sklearn import datasets
5from sklearn.cluster import KMeans
6# データの読み込み
7f_data = pd.read_csv("csv/4-5/potential4-5.csv", encoding="utf-8")
8
9# データをラベルと入力データに分離する (使うのは最後)
10y_data = f_data.loc[:,["angle"]]
11x_data = f_data.iloc[:, range(0,400)]
12#print(x_data.head(20) )
13
14input_data = x_data.iloc[:, range(0,400)].values
15
16
17pred = KMeans(n_clusters=30).fit_predict(input_data)
18x_data["cluster"] = pred
19
20
21print(x_data['cluster'].value_counts())
22for num,i in enumerate(range(30)):
23    print(num,"mean")
24    print(x_data[x_data['cluster']==num].mean())
25    print(num,"var")
26    print(x_data[x_data['cluster']==num].var())
27