質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
87.20%
Jupyter

Jupyter (旧IPython notebook)は、Notebook形式でドキュメント作成し、プログラムの記述・実行、その実行結果を記録するツールです。メモの作成や保存、共有、確認などもブラウザ上で行うことができます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

解決済

kmeans法でクラスタリングしたのですが正答率が低くなってしまう。

teruterubozu
teruterubozu

総合スコア0

Jupyter

Jupyter (旧IPython notebook)は、Notebook形式でドキュメント作成し、プログラムの記述・実行、その実行結果を記録するツールです。メモの作成や保存、共有、確認などもブラウザ上で行うことができます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

1回答

0評価

0クリップ

30閲覧

投稿2021/01/08 06:40

前提・実現したいこと

kmeans法を用いたクラスタリングで、各クラスタに正しいデータが含まれていることを確認したい

発生している問題・エラーメッセージ

クラスタ分けは上手くいっているように見えるのですが正答率が異常に低かったりすることがあります 正しいクラスに分類する方法が分からず困っています

該当のソースコード

python

from matplotlib import pyplot as plt from sklearn import datasets, preprocessing from sklearn.cluster import KMeans from sklearn.metrics import accuracy_score import numpy as np import pandas as pd from sklearn.metrics import silhouette_samples # datasetの読み込み #data = datasets.load_iris() data = datasets.load_wine() #data = datasets.load_breast_cancer() # DataFrameに変換 df = pd.DataFrame(data.data, columns=data.feature_names) print(df.head()) # データの整形 #X=df[["sepal length (cm)","petal width (cm)"]] X = df[["malic_acid","ash"]] #X = df[["mean radius","mean texture"]] sc=preprocessing.StandardScaler() sc.fit(X) X_norm=sc.transform(X) # クラスタリング cls = KMeans(n_clusters=3) result = cls.fit(X_norm) # 結果を出力 plt.scatter(X_norm[:,0],X_norm[:,1], c=result.labels_) plt.scatter(result.cluster_centers_[:,0],result.cluster_centers_[:,1],s=250, marker='*',c='red') plt.title('VABC-Kmeans clustering') plt.show() # シルエット値の計算 from sklearn.metrics import silhouette_samples result = cls.fit_predict(X_norm) silhouette_vals = silhouette_samples(X_norm,result,metric = 'euclidean') silhouette_avg = np.mean(silhouette_vals) from sklearn.metrics import accuracy_score print(data.target) print(cls.labels_) accuracy_score(data.target,cls.labels_)

試したこと

何度か動作させると正答率が変化してしまい疑問に思いました。
元のデータのクラスとクラスタリング後のクラスを見比べて、配置はおおよそあっているのにクラスが違うため正答率が低くなっていると考えています。
ですが、正しいクラスに分類するする方法が分からず困っています。

補足情報(FW/ツールのバージョンなど)

python3.7.4 jupyter

良い質問の評価を上げる

以下のような質問は評価を上げましょう

  • 質問内容が明確
  • 自分も答えを知りたい
  • 質問者以外のユーザにも役立つ

評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

  • プログラミングに関係のない質問
  • やってほしいことだけを記載した丸投げの質問
  • 問題・課題が含まれていない質問
  • 意図的に内容が抹消された質問
  • 過去に投稿した質問と同じ内容の質問
  • 広告と受け取られるような投稿

評価を下げると、トップページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

まだ回答がついていません

会員登録して回答してみよう

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
87.20%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る

Jupyter

Jupyter (旧IPython notebook)は、Notebook形式でドキュメント作成し、プログラムの記述・実行、その実行結果を記録するツールです。メモの作成や保存、共有、確認などもブラウザ上で行うことができます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。