回答編集履歴
2
改善
test
CHANGED
@@ -1,4 +1,4 @@
|
|
1
|
-
エラーの原因
|
1
|
+
#### エラーの原因
|
2
2
|
|
3
3
|
python2系のMeCabバインディングは、パース系のメソッドの引数がstr(python3のbytesに該当)ですが、python3系のMeCabバインディングではstr(python2のunicodeに該当)です。
|
4
4
|
|
@@ -18,7 +18,79 @@
|
|
18
18
|
|
19
19
|
|
20
20
|
|
21
|
+
そのフォーマットの商品名をMeCabで形態素解析するのは、困難です。
|
22
|
+
|
23
|
+
|
24
|
+
|
25
|
+
かなりグチャグチャになります(辞書にもよるとは思いますが……)。
|
26
|
+
|
27
|
+
|
28
|
+
|
29
|
+
```
|
30
|
+
|
31
|
+
$ mecab
|
32
|
+
|
33
|
+
コカ・コーラ 綾鷹 お茶 ペットボトル (2L×6本)×2箱
|
34
|
+
|
35
|
+
コカ・コーラ 名詞,固有名詞,一般,*,*,*,コカ・コーラ,コカコーラ,コカコーラ
|
36
|
+
|
37
|
+
綾 名詞,一般,*,*,*,*,綾,アヤ,アヤ
|
38
|
+
|
39
|
+
鷹 名詞,一般,*,*,*,*,鷹,タカ,タカ
|
40
|
+
|
41
|
+
お茶 名詞,一般,*,*,*,*,お茶,オチャ,オチャ
|
42
|
+
|
43
|
+
ペットボトル 名詞,一般,*,*,*,*,ペットボトル,ペットボトル,ペットボトル
|
44
|
+
|
45
|
+
( 名詞,サ変接続,*,*,*,*,*
|
46
|
+
|
47
|
+
2 名詞,数,*,*,*,*,*
|
48
|
+
|
49
|
+
L× 名詞,一般,*,*,*,*,*
|
50
|
+
|
51
|
+
6 名詞,数,*,*,*,*,*
|
52
|
+
|
53
|
+
本 名詞,接尾,助数詞,*,*,*,本,ホン,ホン
|
54
|
+
|
55
|
+
) 名詞,サ変接続,*,*,*,*,*
|
56
|
+
|
57
|
+
× 記号,一般,*,*,*,*,×,カケル,カケル
|
58
|
+
|
59
|
+
2 名詞,数,*,*,*,*,*
|
60
|
+
|
61
|
+
箱 名詞,接尾,助数詞,*,*,*,箱,ハコ,ハコ
|
62
|
+
|
63
|
+
EOS
|
64
|
+
|
65
|
+
Clover カットワークはさみ 115 サック付き 36-666
|
66
|
+
|
67
|
+
Clover 名詞,固有名詞,組織,*,*,*,*
|
68
|
+
|
69
|
+
カット 名詞,サ変接続,*,*,*,*,カット,カット,カット
|
70
|
+
|
71
|
+
ワーク 名詞,一般,*,*,*,*,ワーク,ワーク,ワーク
|
72
|
+
|
73
|
+
はさみ 名詞,一般,*,*,*,*,はさみ,ハサミ,ハサミ
|
74
|
+
|
75
|
+
115 名詞,数,*,*,*,*,*
|
76
|
+
|
77
|
+
サック 名詞,一般,*,*,*,*,サック,サック,サック
|
78
|
+
|
79
|
+
付き 名詞,接尾,一般,*,*,*,付き,ツキ,ツキ
|
80
|
+
|
81
|
+
36 名詞,数,*,*,*,*,*
|
82
|
+
|
83
|
+
- 名詞,サ変接続,*,*,*,*,*
|
84
|
+
|
85
|
+
666 名詞,数,*,*,*,*,*
|
86
|
+
|
87
|
+
EOS
|
88
|
+
|
89
|
+
```
|
90
|
+
|
91
|
+
|
92
|
+
|
21
|
-
|
93
|
+
むしろ何もしなくてもスペースで適当に区切られているのですから、空白区切りで済ませられませんかね。
|
22
94
|
|
23
95
|
|
24
96
|
|
@@ -26,7 +98,7 @@
|
|
26
98
|
|
27
99
|
|
28
100
|
|
29
|
-
自分で書くのは辛いので、ライブラリを使いましょう。
|
101
|
+
TF-IDFの計算を自分で書くのは辛いので、ライブラリを使いましょう。
|
30
102
|
|
31
103
|
|
32
104
|
|
@@ -44,7 +116,7 @@
|
|
44
116
|
|
45
117
|
|
46
118
|
|
47
|
-
参考リンク
|
119
|
+
#### 参考リンク
|
48
120
|
|
49
121
|
[sklearn.feature_extraction.text.TfidfVectorizer — scikit-learn 0.19.2 documentation](http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html)
|
50
122
|
|
1
リンク追加。あと説明追加
test
CHANGED
@@ -40,10 +40,16 @@
|
|
40
40
|
|
41
41
|
くらいしかないと思います。gensimの方は使い方が少し面倒くさいので、sklearnを勧めます。
|
42
42
|
|
43
|
+
(gensimをけなしている訳ではなく、gensimには自由度が高かったり、パフォーマンスやコードの再利用性などが高まるように色々配慮してくれているという利点があります。ただ、それを使いこなすために手間が増えるのは事実です)
|
44
|
+
|
43
45
|
|
44
46
|
|
45
47
|
参考リンク
|
46
48
|
|
49
|
+
[sklearn.feature_extraction.text.TfidfVectorizer — scikit-learn 0.19.2 documentation](http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html)
|
50
|
+
|
51
|
+
[scikit-learnでtf-idfを計算する](https://qiita.com/katryo/items/f86971afcb65ce1e7d40)
|
52
|
+
|
47
53
|
[TF-IDF で文書をベクトル化。python の TfidfVectorizer を使ってみる | コード7区](http://ailaby.com/tfidf/)
|
48
54
|
|
49
55
|
[【python】TF-IDFで重要語を抽出してみる - 静かなる名辞](https://hayataka2049.hatenablog.jp/entry/2018/07/09/190819)(私のブログです。以前似たようなものを書いたので紹介します)
|