回答編集履歴
1
追記
answer
CHANGED
@@ -2,4 +2,20 @@
|
|
2
2
|
|
3
3
|
はい。「文ごとにTF-IDFが出るのは当然」で合っています。
|
4
4
|
|
5
|
-
「こちらの結果を見ると、1つの単語に対して1つのTF-IDF値が一意に決まっているように見受けられます」という気持ちもわかりますが、このページでいったい何をやっているのかはコードが公開されていない以上、他人に回答できることはありません。
|
5
|
+
「こちらの結果を見ると、1つの単語に対して1つのTF-IDF値が一意に決まっているように見受けられます」という気持ちもわかりますが、このページでいったい何をやっているのかはコードが公開されていない以上、他人に回答できることはありません。
|
6
|
+
|
7
|
+
----
|
8
|
+
> 重要度の高い単語上位5つ程度をキーワードとして抽出したい
|
9
|
+
|
10
|
+
とのことですが、
|
11
|
+
(A) 全体が「論文の集合」で、重要度の高い単語を抽出したい対象が「論文」なら、論文の集合と論文を与えると、論文の集合という文脈の中で、論文の中の重要度の高い単語上位を出すのが目的ですね。
|
12
|
+
(B) 全体が「論文(=文の集合)」で、重要度の高い単語を抽出したい対象が「文」なら、論文と文を与えると、論文という文脈の中で、文の中の重要度の高い単語上位を出すのが目的ですね。
|
13
|
+
|
14
|
+
> このようにTF-IDF値を1単語について一意に決めるにはどうすればよいでしょうか。
|
15
|
+
|
16
|
+
という必要はでてこないはずですね。
|
17
|
+
|
18
|
+
> サンプル文章を使ってテストしています
|
19
|
+
|
20
|
+
ということですので、今はテスト的に(B)のコードを書いているけれども、本当にやりたいことは(A)という状況を想像しました。
|
21
|
+
そのあたり、やりたいことを整理する(整理して質問に記載する)のがよいかと思います。
|