いつもお世話になっております。
早速本題に入らせていただきます。
現在下記サイトを参考にTF-IDFについて学習しています。
Tfidfvectorizerの簡単な使い方(tf idf)
現在のコードは以下です。
python
1dataset = pd.read_csv(config.FILE_PATH) 2# データから英文部分を取得 3input_dataset = np.array(dataset["text"]) 4tf_idf_vectorizer = TfidfVectorizer(analyzer="word", ngram_range=(1, 3), min_df=1, stop_words="english") 5tf_idf_vector = tf_idf_vectorizer.fit_transform(input_dataset) 6WORDS = tf_idf_vectorizer.get_feature_names() 7print("words====") 8print(WORDS) 9print("tf_idf_vector====") 10print(tf_idf_vector)
そして使用しているCSVデータの中身は以下です。
id | text |
---|---|
1 | This is a dog |
2 | This is a cat. |
3 | I like dog |
出力結果は下記のようになっています。
words==== ['cat', 'dog', 'like', 'like dog'] tf_idf_vector==== (0, 1) 1.0 (1, 0) 1.0 (2, 3) 0.6227660078332259 (2, 2) 0.6227660078332259 (2, 1) 0.4736296010332684
この最終結果のtf_idf_vector の部分が何を表しているのかが良くわかりませんでした。
この最終結果はどのように解読したらよいのでしょうか・・・。
お時間ある方で知識をお持ちの方いらっしゃいましたらご助力頂けますと幸いです。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。