自然言語処理にて、TfidfVectorizerで加工した特徴量を、
Kmeansによりクラスタリングすることで数値化しています。
Kmeansによるクラスタリングは、どちらの認識が正しいでしょうか。
①trainデータで学習した結果を、testデータに反映するものなのでしょうか。
②同じコードであれば、同一基準でクラスタリングされるので、反映するとかではない。
③上記のどちらの認識も間違い
from sklearn.feature_extraction.text import TfidfVectorizer vectorizer = TfidfVectorizer(min_df=1,max_df=50) vecs = vectorizer.fit_transform(df.text) from sklearn.cluster import KMeans clusters = KMeans(n_clusters=4, random_state=0).fit_predict(vecs)
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。