回答編集履歴

2

改善

2018/09/04 12:42

投稿

hayataka2049
hayataka2049

スコア30933

test CHANGED
@@ -1,4 +1,4 @@
1
- エラーの原因
1
+ #### エラーの原因
2
2
 
3
3
  python2系のMeCabバインディングは、パース系のメソッドの引数がstr(python3のbytesに該当)ですが、python3系のMeCabバインディングではstr(python2のunicodeに該当)です。
4
4
 
@@ -18,7 +18,79 @@
18
18
 
19
19
 
20
20
 
21
+ そのフォーマットの商品名をMeCabで形態素解析するのは、困難です。
22
+
23
+
24
+
25
+ かなりグチャグチャになります(辞書にもよるとは思いますが……)。
26
+
27
+
28
+
29
+ ```
30
+
31
+ $ mecab
32
+
33
+ コカ・コーラ 綾鷹 お茶 ペットボトル (2L×6本)×2箱
34
+
35
+ コカ・コーラ 名詞,固有名詞,一般,*,*,*,コカ・コーラ,コカコーラ,コカコーラ
36
+
37
+ 綾 名詞,一般,*,*,*,*,綾,アヤ,アヤ
38
+
39
+ 鷹 名詞,一般,*,*,*,*,鷹,タカ,タカ
40
+
41
+ お茶 名詞,一般,*,*,*,*,お茶,オチャ,オチャ
42
+
43
+ ペットボトル 名詞,一般,*,*,*,*,ペットボトル,ペットボトル,ペットボトル
44
+
45
+ ( 名詞,サ変接続,*,*,*,*,*
46
+
47
+ 2 名詞,数,*,*,*,*,*
48
+
49
+ L× 名詞,一般,*,*,*,*,*
50
+
51
+ 6 名詞,数,*,*,*,*,*
52
+
53
+ 本 名詞,接尾,助数詞,*,*,*,本,ホン,ホン
54
+
55
+ ) 名詞,サ変接続,*,*,*,*,*
56
+
57
+ × 記号,一般,*,*,*,*,×,カケル,カケル
58
+
59
+ 2 名詞,数,*,*,*,*,*
60
+
61
+ 箱 名詞,接尾,助数詞,*,*,*,箱,ハコ,ハコ
62
+
63
+ EOS
64
+
65
+ Clover カットワークはさみ 115 サック付き 36-666
66
+
67
+ Clover 名詞,固有名詞,組織,*,*,*,*
68
+
69
+ カット 名詞,サ変接続,*,*,*,*,カット,カット,カット
70
+
71
+ ワーク 名詞,一般,*,*,*,*,ワーク,ワーク,ワーク
72
+
73
+ はさみ 名詞,一般,*,*,*,*,はさみ,ハサミ,ハサミ
74
+
75
+ 115 名詞,数,*,*,*,*,*
76
+
77
+ サック 名詞,一般,*,*,*,*,サック,サック,サック
78
+
79
+ 付き 名詞,接尾,一般,*,*,*,付き,ツキ,ツキ
80
+
81
+ 36 名詞,数,*,*,*,*,*
82
+
83
+ - 名詞,サ変接続,*,*,*,*,*
84
+
85
+ 666 名詞,数,*,*,*,*,*
86
+
87
+ EOS
88
+
89
+ ```
90
+
91
+
92
+
21
- そのフォーマットの商品名をMeCabでちゃんと形態素解析できるかは疑問、というか無理そう。むしろ何もしなくてもスペースで適当に区切られているのですから、空白区切りで済ませられませんかね。
93
+ むしろ何もしなくてもスペースで適当に区切られているのですから、空白区切りで済ませられませんかね。
22
94
 
23
95
 
24
96
 
@@ -26,7 +98,7 @@
26
98
 
27
99
 
28
100
 
29
- 自分で書くのは辛いので、ライブラリを使いましょう。
101
+ TF-IDFの計算を自分で書くのは辛いので、ライブラリを使いましょう。
30
102
 
31
103
 
32
104
 
@@ -44,7 +116,7 @@
44
116
 
45
117
 
46
118
 
47
- 参考リンク
119
+ #### 参考リンク
48
120
 
49
121
  [sklearn.feature_extraction.text.TfidfVectorizer — scikit-learn 0.19.2 documentation](http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html)
50
122
 

1

リンク追加。あと説明追加

2018/09/04 12:42

投稿

hayataka2049
hayataka2049

スコア30933

test CHANGED
@@ -40,10 +40,16 @@
40
40
 
41
41
  くらいしかないと思います。gensimの方は使い方が少し面倒くさいので、sklearnを勧めます。
42
42
 
43
+ (gensimをけなしている訳ではなく、gensimには自由度が高かったり、パフォーマンスやコードの再利用性などが高まるように色々配慮してくれているという利点があります。ただ、それを使いこなすために手間が増えるのは事実です)
44
+
43
45
 
44
46
 
45
47
  参考リンク
46
48
 
49
+ [sklearn.feature_extraction.text.TfidfVectorizer — scikit-learn 0.19.2 documentation](http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html)
50
+
51
+ [scikit-learnでtf-idfを計算する](https://qiita.com/katryo/items/f86971afcb65ce1e7d40)
52
+
47
53
  [TF-IDF で文書をベクトル化。python の TfidfVectorizer を使ってみる | コード7区](http://ailaby.com/tfidf/)
48
54
 
49
55
  [【python】TF-IDFで重要語を抽出してみる - 静かなる名辞](https://hayataka2049.hatenablog.jp/entry/2018/07/09/190819)(私のブログです。以前似たようなものを書いたので紹介します)