質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

Q&A

1回答

368閲覧

【自然言語処理 / TF-IDF】結果の見方が分からない

pekopekocot

総合スコア26

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

0グッド

0クリップ

投稿2020/07/08 10:00

いつもお世話になっております。
早速本題に入らせていただきます。

現在下記サイトを参考にTF-IDFについて学習しています。
Tfidfvectorizerの簡単な使い方(tf idf)

現在のコードは以下です。

python

1dataset = pd.read_csv(config.FILE_PATH) 2# データから英文部分を取得 3input_dataset = np.array(dataset["text"]) 4tf_idf_vectorizer = TfidfVectorizer(analyzer="word", ngram_range=(1, 3), min_df=1, stop_words="english") 5tf_idf_vector = tf_idf_vectorizer.fit_transform(input_dataset) 6WORDS = tf_idf_vectorizer.get_feature_names() 7print("words====") 8print(WORDS) 9print("tf_idf_vector====") 10print(tf_idf_vector)

そして使用しているCSVデータの中身は以下です。

idtext
1This is a dog
2This is a cat.
3I like dog

出力結果は下記のようになっています。

words==== ['cat', 'dog', 'like', 'like dog'] tf_idf_vector==== (0, 1) 1.0 (1, 0) 1.0 (2, 3) 0.6227660078332259 (2, 2) 0.6227660078332259 (2, 1) 0.4736296010332684

この最終結果のtf_idf_vector の部分が何を表しているのかが良くわかりませんでした。

この最終結果はどのように解読したらよいのでしょうか・・・。

お時間ある方で知識をお持ちの方いらっしゃいましたらご助力頂けますと幸いです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

すこしでもググられましたでしょうか?
自然言語処理にご関心がある方であればTF-IDFは避けて通れない基本中の基本であり、記事が五万とあります。

nltk.TextCollection.tf_idf の使い方
が分かりやすいかと思います。

投稿2020/07/08 10:13

aokikenichi

総合スコア2218

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問