形態素解析の結果の一部のみを抽出するコードに関して

Question

### 前提・実現したいこと
Mecabで形態素解析をしたあと、名詞・形容詞・動詞に該当する単語のみを抽出しようとしています。[teratailにあった質問](https://teratail.com/questions/76619)の回答に載っていたコードを参考にしています。

### 発生している問題・エラーメッセージ
以下のコードを実行すると、抽出したい品詞以外の記号なども出力されてしまうのですが、
記号を含まないようにするには、どのようにコードを修正すべきでしょうか。
全ての記号を制御で網羅することは難しいと思いますが、できる限り記号を排除して、
抽出したい品詞だけを抽出したいです。

記号などを含んでいた入力の場合の出力結果
```
['日本', '/', '東京']
['日本', '-', '東京']
['日本', '&', '東京']
```

### 該当のソースコード

```python
import MeCab

def extractKeyword(text):
    tagger = MeCab.Tagger('-Ochasen')
    tagger.parse('')
    node = tagger.parseToNode(text)
    keywords = []
    while node:
        if node.feature.split(",")[0] == u"名詞":
            keywords.append(node.surface)
        elif node.feature.split(",")[0] == u"形容詞":
             keywords.append(node.surface)
        elif node.feature.split(",")[0] == u"動詞":
             keywords.append(node.surface)
        node = node.next
    return keywords
text = "日本の/東京"
extractKeyword(text)
```


### 補足情報（FW/ツールのバージョンなど）
python3.6

Accepted Answer

MeCabのデフォルト設定（記号がサ変接続（サ行変格活用）の名詞扱い）に起因する問題です。

根本的に対処したければ、このあたりを参考にしてください。コード修正では対処できなくて、辞書の再構築が必要になるので、ちょっと面倒ですけど。

[mecabで半角記号が名詞,サ変接続になるのを解決する ： nymemo](https://nymemo.com/mecab/564/)
[MeCabさんが記号を「サ変接続」と認識してしまう - BlankTar](https://blanktar.jp/blog/2013/06/mecab-misunderstand-symbol.html)

---

コード修正で解消しようと思ったら、サ変接続の名詞はぜんぶ切り捨ててしまうという手があります。この場合、本来のサ変接続の名詞（「苦労する」「愛する」「説明する」等）も捨ててしまうことになりますが、タスクによっては許容できるということも多いでしょう。

### 追記
回答を書いてから軽く調べて、`node.stat`を見れば、未知語かどうかわかることに気づきました。

```python
import MeCab

def extractKeyword(text):
    tagger = MeCab.Tagger('-Ochasen')
    tagger.parse('')
    node = tagger.parseToNode(text)
    keywords = []
    while node:
        if node.stat != 0:
            node = node.next
            continue
        if node.feature.split(",")[0] == u"名詞":
            keywords.append(node.surface)
        elif node.feature.split(",")[0] == u"形容詞":
             keywords.append(node.surface)
        elif node.feature.split(",")[0] == u"動詞":
             keywords.append(node.surface)
        node = node.next
    return keywords
text = "日本の/東京"
print(extractKeyword(text))  # => ['日本', '東京']


```

この方法が一番手間がかからないと思います。ただし、「未知語だけど正しく処理されている」という形態素があれば、犠牲になる（結果のリストに含まれなくなる）ことになります。

参考：
[スクリプト言語のバインディング](https://taku910.github.io/mecab/bindings.html)

### 追記2
特徴の第二層とnode.statの両方を見るパターン。これだと犠牲になるものを減らせるはず。

```python
import MeCab

def extractKeyword(text):
    tagger = MeCab.Tagger('-Ochasen')
    tagger.parse('')
    node = tagger.parseToNode(text)
    keywords = []
    while node:
        if node.feature.split(",")[0] == u"名詞":
            if node.stat == 0 or node.feature.split(",")[1] != "サ変接続":
                keywords.append(node.surface)
        elif node.feature.split(",")[0] == u"形容詞":
             keywords.append(node.surface)
        elif node.feature.split(",")[0] == u"動詞":
             keywords.append(node.surface)
        node = node.next
    return keywords
text = "日本の/東京"
print(extractKeyword(text))
```

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

補足情報（FW/ツールのバージョンなど）

追記

追記2

関連した質問