質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

89.54%

pythonでのクラスター分析

解決済

回答 2

投稿

  • 評価
  • クリップ 1
  • VIEW 2,069

u_k_statistics

score 42

pythonでクラスター分析(k−means法)を行いたいのですが、クラスター数を何かの指標を設けて自動で設定したいです。何かいい方法はないでしょうか?

クラスター分析を行いたいデータが多いので、ウォード法でデンドログラムを表示させてから自分で決めるのは骨が折れる作業になってしまいます。
また、同じ分析を対象を変えて複数回実行するので、その度にデンドログラムから「自分が」最適と思うクラスター数にすると、クラスタリングの方法がぶれぶれになってしまいます。
以上の理由から、何かの指標を設けて、その指標がある一定の値を超えた瞬間のクラスター数を採用する。という方法で行いたいと考えました。
過去に、
全個体の平方和に占めるクラスター間の平方和の割合が〇〇以上になった時点のクラスター数
で分析したいという旨の質問をさせていただいたのですが、回答がつくことはありませんでした。
なので、上の基準で分析できればベストですが、その他の方法でも構いませんので、どなたかご存知ないでしょうか?

よろしくお願いします。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

checkベストアンサー

0

分析に関しては素人なのですが、興味のある分野なので調べてみました。

Orange の K-means だと固定数で与える以外に、シルエット分析等の選択肢がありました
http://docs.orange.biolab.si/3/visual-programming/widgets/unsupervised/kmeansclustering.html
(Description の項の最初の画像参照)

クラスター数を自動で設定というのはこういう事だろうなという辺りまでは朧げに理解できたのですが、
ただ、評価方法によって指標となるスコアが変わってくるので、どれが最適かという判断はできませんでした。
この辺は、どのクラスターを抽出したいか等の分析目的次第になるのかな

他の方法ですが、Python で同じようなトピックを扱っているblog記事から見つけたコード
https://datasciencelab.wordpress.com/tag/k-means/
時系列下から上です。Gap統計、Pham et al. f(K) という実装とその比較。

後、データ規模が大きいという問題については、単純にスケールダウンしてから分析するのはどうでしょう
例えば画像なら、縮小・サムネイルにしてから分析することで、計算量を減らすようなイメージです。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

0

全自動となると様々な要素を考慮しないといけませんね。
今、思い当る参考サイトを。
【機械学習】iPython NotebookでSparkを起動させてMLlibを試す
どんなデータが対象かが想像できないのでわかりませんが。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 89.54%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる