回答編集履歴

改善

2018/09/04 12:42

投稿

hayataka2049

スコア30939

answer CHANGED Viewed

@@ -1,4 +1,4 @@
-エラーの原因：
+#### エラーの原因
 python2系のMeCabバインディングは、パース系のメソッドの引数がstr（python3のbytesに該当）ですが、python3系のMeCabバインディングではstr（python2のunicodeに該当）です。
 こう直せばとりあえず動くかと。他にエラーが出ないかどうかは確認していませんが。
@@ -8,11 +8,47 @@
 ---
-そのフォーマットの商品名をMeCabでちゃんと形態素解析できるかは疑問、というか無理そう。むしろ何もしなくてもスペースで適当に区切られているのですから、空白区切りで済ませられませんかね。
+そのフォーマットの商品名をMeCabで形態素解析するのは、困難です。
+かなりグチャグチャになります（辞書にもよるとは思いますが……）。
+```
+$ mecab
+コカ・コーラ 綾鷹 お茶 ペットボトル (2L×6本)×2箱
+コカ・コーラ	名詞,固有名詞,一般,*,*,*,コカ・コーラ,コカコーラ,コカコーラ
+綾	名詞,一般,*,*,*,*,綾,アヤ,アヤ
+鷹	名詞,一般,*,*,*,*,鷹,タカ,タカ
+お茶	名詞,一般,*,*,*,*,お茶,オチャ,オチャ
+ペットボトル	名詞,一般,*,*,*,*,ペットボトル,ペットボトル,ペットボトル
+(	名詞,サ変接続,*,*,*,*,*
+2	名詞,数,*,*,*,*,*
+L×	名詞,一般,*,*,*,*,*
+6	名詞,数,*,*,*,*,*
+本	名詞,接尾,助数詞,*,*,*,本,ホン,ホン
+)	名詞,サ変接続,*,*,*,*,*
+×	記号,一般,*,*,*,*,×,カケル,カケル
+2	名詞,数,*,*,*,*,*
+箱	名詞,接尾,助数詞,*,*,*,箱,ハコ,ハコ
+EOS
+Clover カットワークはさみ 115 サック付き 36-666
+Clover	名詞,固有名詞,組織,*,*,*,*
+カット	名詞,サ変接続,*,*,*,*,カット,カット,カット
+ワーク	名詞,一般,*,*,*,*,ワーク,ワーク,ワーク
+はさみ	名詞,一般,*,*,*,*,はさみ,ハサミ,ハサミ
+115	名詞,数,*,*,*,*,*
+サック	名詞,一般,*,*,*,*,サック,サック,サック
+付き	名詞,接尾,一般,*,*,*,付き,ツキ,ツキ
+36	名詞,数,*,*,*,*,*
+-	名詞,サ変接続,*,*,*,*,*
+666	名詞,数,*,*,*,*,*
+EOS
+```
+むしろ何もしなくてもスペースで適当に区切られているのですから、空白区切りで済ませられませんかね。
 ---
-自分で書くのは辛いので、ライブラリを使いましょう。
+TF-IDFの計算を自分で書くのは辛いので、ライブラリを使いましょう。
 メジャーな選択肢としては、
 - sklearnの実装
@@ -21,7 +57,7 @@
 くらいしかないと思います。gensimの方は使い方が少し面倒くさいので、sklearnを勧めます。
 （gensimをけなしている訳ではなく、gensimには自由度が高かったり、パフォーマンスやコードの再利用性などが高まるように色々配慮してくれているという利点があります。ただ、それを使いこなすために手間が増えるのは事実です）
-参考リンク
+#### 参考リンク
 [sklearn.feature_extraction.text.TfidfVectorizer — scikit-learn 0.19.2 documentation](http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html)
 [scikit-learnでtf-idfを計算する](https://qiita.com/katryo/items/f86971afcb65ce1e7d40)
 [TF-IDF で文書をベクトル化。python の TfidfVectorizer を使ってみる | コード７区](http://ailaby.com/tfidf/)

リンク追加。あと説明追加

2018/09/04 12:42

投稿

hayataka2049

スコア30939

answer CHANGED Viewed

@@ -19,7 +19,10 @@
 - gensimの実装
 くらいしかないと思います。gensimの方は使い方が少し面倒くさいので、sklearnを勧めます。
+（gensimをけなしている訳ではなく、gensimには自由度が高かったり、パフォーマンスやコードの再利用性などが高まるように色々配慮してくれているという利点があります。ただ、それを使いこなすために手間が増えるのは事実です）
 参考リンク
+[sklearn.feature_extraction.text.TfidfVectorizer — scikit-learn 0.19.2 documentation](http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html)
+[scikit-learnでtf-idfを計算する](https://qiita.com/katryo/items/f86971afcb65ce1e7d40)
 [TF-IDF で文書をベクトル化。python の TfidfVectorizer を使ってみる | コード７区](http://ailaby.com/tfidf/)
 [【python】TF-IDFで重要語を抽出してみる - 静かなる名辞](https://hayataka2049.hatenablog.jp/entry/2018/07/09/190819)（私のブログです。以前似たようなものを書いたので紹介します）