「動詞」の抽出から、「感動詞」を除外する方法

janomeを使った形態素解析をしています。

下記のコードのように、動詞だけを抽出したいと思っていますが、

if ps.find("動詞") < 0: continue

というコードで指定しようとすると、
「ありがとう」という感動詞が拾われてしまいました。

「感動詞」も”動詞”という文字列を含んでしまっているからだと考え、
「”感動詞”という文字列があれば、スキップせよ」という意図で、下記の一行を追加しました

if ps.find("感動詞") : continue

・・・が、うまくいきません。

pythonの基本的な質問にあたると思うのですが…
どのようなコードを書いたらよいか、お教えください。

def
1    t = Tokenizer()
2
3    word_dic = {}
4    lines = cell_value.split("\r\n")
5    for line in lines:
6      value_txt = t.tokenize(line)
7      for w in value_txt:
8          word = w.surface
9          ps = w.part_of_speech
10          if ps.find("動詞") < 0: continue
11          if ps.find("感動詞") : continue
12          if len(word) > 2: 
13            if not word in word_dic:
14              word_dic[word] = 0
15            word_dic[word] += 1

行動規範の内容に同意します

回答1件

ベストアンサー

文字列「感動詞」が見つかったときは0以上の整数が返ります。

0以上というのが厄介なところで、Pythonでは0はFalseです。この辺は使う辞書にもよるのですが、IPA品詞体系やJuman 品詞体系を使っているなら感動詞は独立した品詞として認められているので、先頭に出てくることでしょう。str.findした結果は0になるので、見つけてもFalseです。

上と同様の考えでif ps.find("感動詞") >= 0 : continueとでもすればいいのでは。

投稿2020/03/02 21:35