質問編集履歴
1
問題の抽象化
test
CHANGED
@@ -1 +1 @@
|
|
1
|
-
|
1
|
+
短い文章から単語を抜き出す
|
test
CHANGED
@@ -1,51 +1,11 @@
|
|
1
1
|
### 前提・実現したいこと
|
2
2
|
|
3
|
+
短い文章から単語を抜き出す
|
3
4
|
|
4
5
|
|
5
|
-
ECサイトの商品タイトルから商品を最もよく表す単語を抽出したいと考えています。
|
6
|
-
|
7
|
-
具体的には、
|
8
|
-
|
9
|
-
「コカ・コーラ 綾鷹 お茶 ペットボトル (2L×6本)×2箱」の場合には「お茶」
|
10
|
-
|
11
|
-
「Clover カットワークはさみ 115 サック付き 36-666」の場合には「はさみ」
|
12
|
-
|
13
|
-
という具合です。
|
14
|
-
|
15
|
-
|
16
|
-
|
17
|
-
|
18
|
-
|
19
|
-
### 発生している問題・エラーメッセージ
|
20
|
-
|
21
|
-
「カルビー じゃがりこ チーズ 58g × 12個」など例では、
|
22
|
-
|
23
|
-
固有名詞が最もその商品を最もよく表し、上記の「お茶」や「はさみ」の例とは異なっているので、
|
24
|
-
|
25
|
-
全ての商品タイトルでは実現は難しいかもしれませんが、
|
26
|
-
|
27
|
-
可能なアプローチに関してアドバイスをいただきたいです。
|
28
|
-
|
29
|
-
|
30
|
-
|
31
|
-
###
|
6
|
+
### 検討中の手法
|
32
|
-
|
33
|
-
現在まだ、方法を調査・考案している最中なので、コードはありません。
|
34
|
-
|
35
|
-
|
36
|
-
|
37
|
-
・形態素解析による自立語名詞の抽出を行なった後、概念辞書(WordNetなど)の上位にある単語を採用する
|
38
|
-
|
39
7
|
・トピックモデル(LDA)を使った手法
|
40
8
|
|
41
|
-
|
42
|
-
|
43
9
|
などが思いつきますが、
|
44
|
-
|
45
|
-
トピックモデル(LDA)を使った手法では
|
10
|
+
トピックモデル(LDA)を使った手法では文量量が足りず
|
46
|
-
|
47
|
-
精度は低いのではないかと考えられます
|
11
|
+
精度は低いのではないかと考えられます
|
48
|
-
|
49
|
-
|
50
|
-
|
51
|
-
検討段階ですが、もしご指摘等いただけましたら幸いです。
|