回答編集履歴

1

追記

2020/04/10 06:49

投稿

quickquip
quickquip

スコア11072

test CHANGED
@@ -7,3 +7,35 @@
7
7
 
8
8
 
9
9
  「こちらの結果を見ると、1つの単語に対して1つのTF-IDF値が一意に決まっているように見受けられます」という気持ちもわかりますが、このページでいったい何をやっているのかはコードが公開されていない以上、他人に回答できることはありません。
10
+
11
+
12
+
13
+ ----
14
+
15
+ > 重要度の高い単語上位5つ程度をキーワードとして抽出したい
16
+
17
+
18
+
19
+ とのことですが、
20
+
21
+ (A) 全体が「論文の集合」で、重要度の高い単語を抽出したい対象が「論文」なら、論文の集合と論文を与えると、論文の集合という文脈の中で、論文の中の重要度の高い単語上位を出すのが目的ですね。
22
+
23
+ (B) 全体が「論文(=文の集合)」で、重要度の高い単語を抽出したい対象が「文」なら、論文と文を与えると、論文という文脈の中で、文の中の重要度の高い単語上位を出すのが目的ですね。
24
+
25
+
26
+
27
+ > このようにTF-IDF値を1単語について一意に決めるにはどうすればよいでしょうか。
28
+
29
+
30
+
31
+ という必要はでてこないはずですね。
32
+
33
+
34
+
35
+ > サンプル文章を使ってテストしています
36
+
37
+
38
+
39
+ ということですので、今はテスト的に(B)のコードを書いているけれども、本当にやりたいことは(A)という状況を想像しました。
40
+
41
+ そのあたり、やりたいことを整理する(整理して質問に記載する)のがよいかと思います。