質問するログイン新規登録

回答編集履歴

1

追記

2020/04/10 06:49

投稿

quickquip
quickquip

スコア11353

answer CHANGED
@@ -2,4 +2,20 @@
2
2
 
3
3
  はい。「文ごとにTF-IDFが出るのは当然」で合っています。
4
4
 
5
- 「こちらの結果を見ると、1つの単語に対して1つのTF-IDF値が一意に決まっているように見受けられます」という気持ちもわかりますが、このページでいったい何をやっているのかはコードが公開されていない以上、他人に回答できることはありません。
5
+ 「こちらの結果を見ると、1つの単語に対して1つのTF-IDF値が一意に決まっているように見受けられます」という気持ちもわかりますが、このページでいったい何をやっているのかはコードが公開されていない以上、他人に回答できることはありません。
6
+
7
+ ----
8
+ > 重要度の高い単語上位5つ程度をキーワードとして抽出したい
9
+
10
+ とのことですが、
11
+ (A) 全体が「論文の集合」で、重要度の高い単語を抽出したい対象が「論文」なら、論文の集合と論文を与えると、論文の集合という文脈の中で、論文の中の重要度の高い単語上位を出すのが目的ですね。
12
+ (B) 全体が「論文(=文の集合)」で、重要度の高い単語を抽出したい対象が「文」なら、論文と文を与えると、論文という文脈の中で、文の中の重要度の高い単語上位を出すのが目的ですね。
13
+
14
+ > このようにTF-IDF値を1単語について一意に決めるにはどうすればよいでしょうか。
15
+
16
+ という必要はでてこないはずですね。
17
+
18
+ > サンプル文章を使ってテストしています
19
+
20
+ ということですので、今はテスト的に(B)のコードを書いているけれども、本当にやりたいことは(A)という状況を想像しました。
21
+ そのあたり、やりたいことを整理する(整理して質問に記載する)のがよいかと思います。