tuple型で格納しているためfind関数が使えない時の対処法

前提・実現したいこと

N-gramを自立語のみで取り出すプログラムを作っている時に以下のようなエラーが出ました. おそらく, tuple型のものに対しfind関数を適用できないというものなのですが, 方法が見つかりません. どのように対応したらいいでしょうか？

発生している問題・エラーメッセージ

Traceback (most recent call last):
File "ngram.py", line 79, in <module>
main()
File "ngram.py", line 68, in main
bow = text2bow(argvs[2],mod="file")
File "ngram.py", line 20, in text2bow
if morp.find('名詞') > -1:
AttributeError: 'tuple' object has no attribute 'find'

該当のソースコード

Python
1#!/usr/bin/env python
2# -*- coding: utf-8 -*-
3#Qiita: Pythonで単語N-gramを生成するモジュール <https://qiita.com/takumi_TKHS/items/942492b72aaf7b6a6213>
4
5import sys
6import subprocess as cmd
7
8# テキスト -> 単語(形態素)集合
9def text2bow(obj,mod):
10    
11    # input: ファイルの場合はmod="file", input: 文字列の場合はmod="str"
12    if mod == "file":
13        morp = cmd.getstatusoutput("cat " + obj + " | mecab -Owakati")
14    elif mod == "str":
15        morp = cmd.getstatusoutput("echo " + obj.encode('utf-8') + " | mecab -Owakati")
16    else:
17        print("error!!")
18        sys.exit(0)
19
20    if morp.find('名詞') > -1:
21        a = morp
22    elif morp.find('動詞') > -1:
23        a = morp
24    elif morp.find('形容詞') > -1:
25        a = morp
26    elif morp.find('形容動詞') > -1:
27        a = morp
28    else:
29        pass
30        sys.exit(0)
31    
32    words = a[1]
33    words = words.replace('\n', '')
34
35    bow = words.split(' ')
36
37    return bow
38
39# N-gramの生成
40def gen_Ngram(words,N):
41    
42    ngram = []
43    
44    for i in range(len(words)):
45        cw = ""
46        
47        if i >= N-1:
48            for j in reversed(list(range(N))):
49                cw += words[i-j]
50        else:
51            continue
52        
53        ngram.append(cw)
54    
55    return ngram
56
57# 出力
58def output_Ngram(ngram):
59    
60    for i in range(len(ngram)):
61        print(ngram[i])
62
63def main():
64    
65    argvs = sys.argv
66    
67    # input: ファイルの場合
68    bow = text2bow(argvs[2],mod="file")
69    
70    # input: 文字列の場合
71    #bow = text2bow(obj=u"これはN-gramを生成するプログラムです．",mod="str")
72    
73    ngram = gen_Ngram(bow,int(argvs[1]))
74    
75    output_Ngram(ngram)
76
77if __name__ == "__main__":
78    
79    main()
80

試したこと

GithubやStackoverflowで検索しましたが, いまいちわかりませんでした...

行動規範の内容に同意します

回答1件

ベストアンサー

該当箇所はmorpの中にあるかどうかをみてる処理ですかね。
inを使うのはどうでしょう。

python
1tup = ('t', 'e', 's', 't')
2print('s' in tup) # True
3print('r' in tup) # False

投稿2018/10/26 02:31

suzu6

総合スコア168

rrrrrrrry

2018/10/26 02:43

''' def text2bow(obj,mod): # input: ファイルの場合はmod="file", input: 文字列の場合はmod="str" if mod == "file": morp = cmd.getstatusoutput("cat " + obj + " | mecab -Owakati") elif mod == "str": morp = cmd.getstatusoutput("echo " + obj.encode('utf-8') + " | mecab -Owakati") else: print("error!!") sys.exit(0) key = ('名詞', '動詞', '形容詞', '形容動詞') if morp in key: morp2 = morp words = morp2[1] words = words.replace('\n', '') bow = words.split(' ') return bow ''' このように書き換えたところ File "ngram.py", line 33 key = ('名詞', '動詞', '形容詞', '形容動詞') ^ IndentationError: unexpected indent と言われました. どこのインデントがおかしいのでしょう？