回答編集履歴

追記

2018/08/07 07:54

投稿

quickquip

スコア11364

answer CHANGED Viewed

@@ -6,7 +6,7 @@
 ----
 入力が半角なのがまずいので、適当なコード(Web検索で拾ってくればいいでしょう)で全角にしましょう。
-ipadicには半角記号が辞書に含まれてないのです。
+ipadicには半角記号が辞書に含まれていないため、名詞扱いになるのです。
 ```shell

追記

2018/08/07 07:54

投稿

quickquip

スコア11364

answer CHANGED Viewed

@@ -1,4 +1,61 @@
 ```
 if node.stat != 0:
 ```
-として、**未知語を取り除く**処理をいれて、自分でわざわざ取り除いてますよね。
+として、**未知語を取り除く**処理をいれて、自分でわざわざ取り除いてますよね。
+----
+入力が半角なのがまずいので、適当なコード(Web検索で拾ってくればいいでしょう)で全角にしましょう。
+ipadicには半角記号が辞書に含まれてないのです。
+```shell
+% echo "ドライ・アムネシア・バラ（切花）" | mecab
+ドライ・アムネシア・バラ	名詞,一般,*,*,*,*,*
+（	記号,括弧開,*,*,*,*,（,（,（
+切花	名詞,一般,*,*,*,*,切花,キリバナ,キリバナ
+）	記号,括弧閉,*,*,*,*,）,）,）
+EOS
+% echo "ドライ・アムネシア・バラ(切花)" | mecab
+ドライ・アムネシア・バラ	名詞,一般,*,*,*,*,*
+(	名詞,サ変接続,*,*,*,*,*
+切花	名詞,一般,*,*,*,*,切花,キリバナ,キリバナ
+)	名詞,サ変接続,*,*,*,*,*
+EOS
+```
+その上で、`node.stat`を見ないで、品詞が名詞のものを拾えばいいかと思います。
+あと用途によるでしょうが、私ならもうちょっと品詞細目を絞りますね。
+```Python
+STOP_POS = {
+    ('名詞', '副詞可能', '*'),  # これは微妙?
+    ('名詞', '非自立', '副詞可能'),
+    ('名詞', '非自立', '一般'),
+    ('名詞', '接尾', '副詞可能'),
+    ('名詞', '接尾', '助数詞'),
+    ('名詞', '数', '*'),
+}
+def han2zen(text):
+    # なんかてきとうな全角化関数にしてください
+    return text
+def extractKeyword(text):
+    tagger = MeCab.Tagger('-Ochasen')
+    tagger.parse('')
+    node = tagger.parseToNode(han2zen(text))
+    keywords = []
+    while node:
+        features = tuple(node.feature.split(","))
+        if features[0] == u"名詞" and features[:3] not in STOP_POS:
+            keywords.append(node.surface)
+        elif features[0] == u"形容詞" and features[1] == u"自立":
+            keywords.append(node.surface)
+        elif features[0] == u"動詞" and features[1] == u"自立":
+            keywords.append(node.surface)
+        node = node.next
+    return keywords
+```