回答編集履歴
1
追記
test
CHANGED
@@ -7,3 +7,35 @@
|
|
7
7
|
|
8
8
|
|
9
9
|
「こちらの結果を見ると、1つの単語に対して1つのTF-IDF値が一意に決まっているように見受けられます」という気持ちもわかりますが、このページでいったい何をやっているのかはコードが公開されていない以上、他人に回答できることはありません。
|
10
|
+
|
11
|
+
|
12
|
+
|
13
|
+
----
|
14
|
+
|
15
|
+
> 重要度の高い単語上位5つ程度をキーワードとして抽出したい
|
16
|
+
|
17
|
+
|
18
|
+
|
19
|
+
とのことですが、
|
20
|
+
|
21
|
+
(A) 全体が「論文の集合」で、重要度の高い単語を抽出したい対象が「論文」なら、論文の集合と論文を与えると、論文の集合という文脈の中で、論文の中の重要度の高い単語上位を出すのが目的ですね。
|
22
|
+
|
23
|
+
(B) 全体が「論文(=文の集合)」で、重要度の高い単語を抽出したい対象が「文」なら、論文と文を与えると、論文という文脈の中で、文の中の重要度の高い単語上位を出すのが目的ですね。
|
24
|
+
|
25
|
+
|
26
|
+
|
27
|
+
> このようにTF-IDF値を1単語について一意に決めるにはどうすればよいでしょうか。
|
28
|
+
|
29
|
+
|
30
|
+
|
31
|
+
という必要はでてこないはずですね。
|
32
|
+
|
33
|
+
|
34
|
+
|
35
|
+
> サンプル文章を使ってテストしています
|
36
|
+
|
37
|
+
|
38
|
+
|
39
|
+
ということですので、今はテスト的に(B)のコードを書いているけれども、本当にやりたいことは(A)という状況を想像しました。
|
40
|
+
|
41
|
+
そのあたり、やりたいことを整理する(整理して質問に記載する)のがよいかと思います。
|