回答率: 85.29%

質問するログイン新規登録

トップ機械学習に関する質問機械学習の勉強　特徴でグループ分類

編集履歴

回答編集履歴

2

追記

2019/03/18 03:21

投稿

スコア30939

answer CHANGED Viewed

@@ -50,4 +50,4 @@
 ```
-今思いついた注意点ですが、データ数が1万もあるときっとそれなりに高次元の特徴量になるので、PCAとかで次元を落とした方が速いかもしれません。それくらい。
+今思いついた注意点ですが、データ数が1万もあるときっとそれなりに高次元の特徴量になるので、`min_df`を指定して削った上でPCAとかで次元を落とさないと速度の面で実用的ではないかもしれません。あとはクラスタリング周りはいろいろ手法やパラメータ（含むクラスタ数）を試行錯誤した上で、結果が出たならその妥当性も何らかの方法で検証するべきでしょう。

1

追記

2019/03/18 03:21

投稿

スコア30939

answer CHANGED Viewed

@@ -4,4 +4,50 @@
 [sklearn.feature_extraction.text.CountVectorizer — scikit-learn 0.20.3 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html)
 [sklearn.feature_extraction.DictVectorizer — scikit-learn 0.20.3 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.DictVectorizer.html)
-[sklearn.cluster.KMeans — scikit-learn 0.20.3 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html)
+[sklearn.cluster.KMeans — scikit-learn 0.20.3 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html)
+##### 追記
+やってみたら鼻歌交じりで五分のコーディングでした。簡単すぎるかも。
+```python
+import pandas as pd
+from sklearn.feature_extraction.text import CountVectorizer
+from sklearn.cluster import KMeans
+def main():
+    data = ["abc-123-S-1",
+            "abc-151521-S1",
+            "acd-321-SF-1",
+            "abc-213-S-1",
+            "abc151512-S1"]
+    cv = CountVectorizer(lowercase=False, analyzer="char",
+                         ngram_range=(1, 3))
+    X = cv.fit_transform(data)
+    km = KMeans(n_clusters=3)
+    y = km.fit_predict(X)
+    df = pd.DataFrame({"data":data, "cluster":y})
+    for cluster_i, x in df.groupby("cluster"):
+        print("cluster:", cluster_i)
+        print(x)
+if __name__ == "__main__":
+    main()
+""" =>
+cluster: 0
+   cluster          data
+2        0  acd-321-SF-1
+cluster: 1
+   cluster           data
+1        1  abc-151521-S1
+4        1   abc151512-S1
+cluster: 2
+   cluster         data
+0        2  abc-123-S-1
+3        2  abc-213-S-1
+"""
+```
+今思いついた注意点ですが、データ数が1万もあるときっとそれなりに高次元の特徴量になるので、PCAとかで次元を落とした方が速いかもしれません。それくらい。