下記エラーのKeyError: '' が発生している場所がわかりません。
辞書をどこで使っているかがはっきり特定する方法などがわかればと思います。
C:\Users\bluec>python bayes_test.py
2
Traceback (most recent call last):
File "bayes_test.py", line 21, in <module>
pre, scorelist = bf.predict("部品の交換を行いました")
File "C:\Users\bluec\bayes.py", line 60, in predict
score = self.score(words, category)
File "C:\Users\bluec\bayes.py", line 50, in score
score += math.log(self.word_prob(word, category))
File "C:\Users\bluec\bayes.py", line 82, in word_prob
n = self.get_word_count(word, category) + 1 # ---(*6a)
File "C:\Users\bluec\bayes.py", line 69, in get_word_count
if word in self.word_dict[category]:
KeyError: ''
python
1**bayes_test.py** 2 3from bayes import BayesianFilter 4import csv 5 6bf = BayesianFilter() 7# テキストを学習 8data = [] 9with open('format.csv', 'r', encoding='utf-8') as fp: 10 lines = csv.reader(fp) 11 for line in lines: 12 data.append(line) 13print(len(line)) 14bf.fit(line[0],line[1]) 15# 予測 16pre, scorelist = bf.predict("部品の交換を行いました") 17print("結果=", pre) 18print(scorelist) 19 20**bayes.py** 21 22import math, sys 23from janome.tokenizer import Tokenizer # 形態素解析用 24 25class BayesianFilter: 26 """ ベイジアンフィルタ """ 27 def __init__(self): 28 self.words = set() # 出現した単語を全て記録 29 self.word_dict = {} # カテゴリごとの単語出現回数を記録 30 self.category_dict = {} # カテゴリの出現回数を記録 31 32 # 形態素解析を行う --- (※1) 33 def split(self, text): 34 result = [] 35 t = Tokenizer() 36 malist = t.tokenize(text) 37 for w in malist: 38 sf = w.surface # 区切られた単語そのまま 39 bf = w.base_form # 単語の基本形 40 if bf == '' or bf == "*": bf = sf 41 result.append(bf) 42 return result 43 44 # 単語とカテゴリを数える処理 --- (※2) 45 def inc_word(self, word, category): 46 # 単語をカテゴリに追加 47 if not category in self.word_dict: 48 self.word_dict[category] = {} 49 if not word in self.word_dict[category]: 50 self.word_dict[category][word] = 0 51 self.word_dict[category][word] += 1 52 self.words.add(word) 53 def inc_category(self, category): 54 # カテゴリを加算する 55 if not category in self.category_dict: 56 self.category_dict[category] = 0 57 self.category_dict[category] += 1 58 59 # テキストを学習する --- (※3) 60 def fit(self, text, category): 61 """ テキストの学習 """ 62 word_list = self.split(text) 63 for word in word_list: 64 self.inc_word(word, category) 65 self.inc_category(category) 66 67 # カテゴリにおける単語リストのスコアを計算する --- (※4) 68 def score(self, words, category): 69 score = math.log(self.category_prob(category)) 70 for word in words: 71 score += math.log(self.word_prob(word, category)) 72 return score 73 74 # テキストのカテゴリ分けを行う --- (※5) 75 def predict(self, text): 76 best_category = None 77 max_score = -sys.maxsize 78 words = self.split(text) 79 score_list = [] 80 for category in self.category_dict.keys(): 81 score = self.score(words, category) 82 score_list.append((category, score)) 83 if score > max_score: 84 max_score = score 85 best_category = category 86 return best_category, score_list 87 88 # カテゴリ内の単語出現数を得る 89 def get_word_count(self, word, category): 90 if word in self.word_dict[category]: 91 return self.word_dict[category][word] 92 else: 93 return 0 94 95 # カテゴリ/総カテゴリを計算 96 def category_prob(self, category): 97 sum_categories = sum(self.category_dict.values()) 98 category_v = self.category_dict[category] 99 return category_v / sum_categories 100 101 # カテゴリ内の単語の出現率を計算 --- (※6) 102 def word_prob(self, word, category): 103 n = self.get_word_count(word, category) + 1 # ---(*6a) 104 d = sum(self.word_dict[category].values()) + len(self.words) 105 return n / d 106
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。