回答編集履歴

追記2

2018/07/21 07:09

投稿

hayataka2049

スコア30939

answer CHANGED Viewed

@@ -41,4 +41,29 @@
 この方法が一番手間がかからないと思います。ただし、「未知語だけど正しく処理されている」という形態素があれば、犠牲になる（結果のリストに含まれなくなる）ことになります。
 参考：
-[スクリプト言語のバインディング](https://taku910.github.io/mecab/bindings.html)
+[スクリプト言語のバインディング](https://taku910.github.io/mecab/bindings.html)
+### 追記2
+特徴の第二層とnode.statの両方を見るパターン。これだと犠牲になるものを減らせるはず。
+```python
+import MeCab
+def extractKeyword(text):
+    tagger = MeCab.Tagger('-Ochasen')
+    tagger.parse('')
+    node = tagger.parseToNode(text)
+    keywords = []
+    while node:
+        if node.feature.split(",")[0] == u"名詞":
+            if node.stat == 0 or node.feature.split(",")[1] != "サ変接続":
+                keywords.append(node.surface)
+        elif node.feature.split(",")[0] == u"形容詞":
+             keywords.append(node.surface)
+        elif node.feature.split(",")[0] == u"動詞":
+             keywords.append(node.surface)
+        node = node.next
+    return keywords
+text = "日本の/東京"
+print(extractKeyword(text))
+```

追記

2018/07/21 07:09

投稿

hayataka2049

スコア30939

answer CHANGED Viewed

@@ -37,6 +37,8 @@
 ```
+この方法が一番手間がかからないと思います。ただし、「未知語だけど正しく処理されている」という形態素があれば、犠牲になる（結果のリストに含まれなくなる）ことになります。
 参考：
 [スクリプト言語のバインディング](https://taku910.github.io/mecab/bindings.html)

追記

2018/07/21 06:50

投稿

hayataka2049

スコア30939

answer CHANGED Viewed

@@ -7,4 +7,36 @@
 ---
-コード修正で解消しようと思ったら、サ変接続の名詞はぜんぶ切り捨ててしまうという手があります。この場合、本来のサ変接続の名詞（「苦労する」「愛する」「説明する」等）も捨ててしまうことになりますが、タスクによっては許容できるということも多いでしょう。
+コード修正で解消しようと思ったら、サ変接続の名詞はぜんぶ切り捨ててしまうという手があります。この場合、本来のサ変接続の名詞（「苦労する」「愛する」「説明する」等）も捨ててしまうことになりますが、タスクによっては許容できるということも多いでしょう。
+### 追記
+回答を書いてから軽く調べて、`node.stat`を見れば、未知語かどうかわかることに気づきました。
+```python
+import MeCab
+def extractKeyword(text):
+    tagger = MeCab.Tagger('-Ochasen')
+    tagger.parse('')
+    node = tagger.parseToNode(text)
+    keywords = []
+    while node:
+        if node.stat != 0:
+            node = node.next
+            continue
+        if node.feature.split(",")[0] == u"名詞":
+            keywords.append(node.surface)
+        elif node.feature.split(",")[0] == u"形容詞":
+             keywords.append(node.surface)
+        elif node.feature.split(",")[0] == u"動詞":
+             keywords.append(node.surface)
+        node = node.next
+    return keywords
+text = "日本の/東京"
+print(extractKeyword(text))  # => ['日本', '東京']
+```
+参考：
+[スクリプト言語のバインディング](https://taku910.github.io/mecab/bindings.html)