KeyError: '' が発生している場所がわからない

Question

下記エラーのKeyError: '' が発生している場所がわかりません。
辞書をどこで使っているかがはっきり特定する方法などがわかればと思います。

C:\Users\bluec>python bayes_test.py
2
Traceback (most recent call last):
  File "bayes_test.py", line 21, in <module>
    pre, scorelist = bf.predict("部品の交換を行いました")
  File "C:\Users\bluec\bayes.py", line 60, in predict
    score = self.score(words, category)
  File "C:\Users\bluec\bayes.py", line 50, in score
    score += math.log(self.word_prob(word, category))
  File "C:\Users\bluec\bayes.py", line 82, in word_prob
    n = self.get_word_count(word, category) + 1 # ---(*6a)
  File "C:\Users\bluec\bayes.py", line 69, in get_word_count
    if word in self.word_dict[category]:
KeyError: ''

```python
**bayes_test.py**

from bayes import BayesianFilter
import csv

bf = BayesianFilter()
# テキストを学習
data = []
with open('format.csv', 'r', encoding='utf-8') as fp:
    lines = csv.reader(fp)
    for line in lines:
        data.append(line)
print(len(line))
bf.fit(line[0],line[1])
# 予測
pre, scorelist = bf.predict("部品の交換を行いました")
print("結果=", pre)
print(scorelist)

**bayes.py**

import math, sys
from janome.tokenizer import Tokenizer # 形態素解析用

class BayesianFilter:
    """ ベイジアンフィルタ """
    def __init__(self):
        self.words = set() # 出現した単語を全て記録
        self.word_dict = {} # カテゴリごとの単語出現回数を記録
        self.category_dict = {} # カテゴリの出現回数を記録

    # 形態素解析を行う --- (※1)
    def split(self, text):
        result = []
        t = Tokenizer()
        malist = t.tokenize(text)
        for w in malist:
            sf = w.surface   # 区切られた単語そのまま 
            bf = w.base_form # 単語の基本形
            if bf == '' or bf == "*": bf = sf
            result.append(bf)
        return result

    # 単語とカテゴリを数える処理 --- (※2)
    def inc_word(self, word, category):
        # 単語をカテゴリに追加
        if not category in self.word_dict:
            self.word_dict[category] = {}
        if not word in self.word_dict[category]:
            self.word_dict[category][word] = 0
        self.word_dict[category][word] += 1
        self.words.add(word)
    def inc_category(self, category):
        # カテゴリを加算する
        if not category in self.category_dict:
            self.category_dict[category] = 0
        self.category_dict[category] += 1

    # テキストを学習する --- (※3)
    def fit(self, text, category):
        """ テキストの学習 """
        word_list = self.split(text)
        for word in word_list:
            self.inc_word(word, category)
        self.inc_category(category)

    # カテゴリにおける単語リストのスコアを計算する --- (※4)
    def score(self, words, category):
        score = math.log(self.category_prob(category))
        for word in words:
            score += math.log(self.word_prob(word, category))
        return score

    # テキストのカテゴリ分けを行う --- (※5)
    def predict(self, text):
        best_category = None
        max_score = -sys.maxsize 
        words = self.split(text)
        score_list = []
        for category in self.category_dict.keys():
            score = self.score(words, category)
            score_list.append((category, score))
            if score > max_score:
                max_score = score
                best_category = category
        return best_category, score_list

    # カテゴリ内の単語出現数を得る
    def get_word_count(self, word, category):
        if word in self.word_dict[category]:
            return self.word_dict[category][word]
        else:
            return 0

    # カテゴリ/総カテゴリを計算
    def category_prob(self, category):
        sum_categories = sum(self.category_dict.values())
        category_v = self.category_dict[category]
        return category_v / sum_categories
        
    # カテゴリ内の単語の出現率を計算 --- (※6)
    def word_prob(self, word, category):
        n = self.get_word_count(word, category) + 1 # ---(*6a)
        d = sum(self.word_dict[category].values()) + len(self.words)
        return n / d

```

Accepted Answer

エラーを回避したいのであれば、
can110さんのコードから引き継いで、
python辞書の.get()メソッドのデフォルト値を与えればよいです。

```python
words = word_dict.get(category, [])
```

---

```python
word_dict = {'cat1':{'word1':1}}
def get_word_count(word, category):
    words = word_dict.get(category,[])
    if word in words:
        print('OK')
    else:
        print('NG')

get_word_count('word1', 'cat1') # OK
get_word_count('word1', '') # NG
```

---

ついでに、`word_dict = {'cat1':{'word1':1}}`と対応するように、デフォルトはリストではなく辞書を与える方がロジックが正しいです。

```python
words = word_dict.get(category, {})
```

Answer

エラーが発生している場所は、メッセージより以下です。
```Python
# カテゴリ内の単語出現数を得る
    def get_word_count(self, word, category):
        if word in self.word_dict[category]: # ここ
```
`category = ''`であり、キー値`（空文字）`に対応する値`word_dict['']`が存在しないので`KeyError`になっています。

以下のような単純化したコードで考えると理解しやすいかと思います。
```Python
word_dict = {'cat1':{'word1':1}}
def get_word_count(word, category):
    words = word_dict[category] # キーに対応する値が存在しなければKeyErrorが発生
    if word in words:
        print('OK')

get_word_count('word1', 'cat1') # OK
get_word_count('word1', '')     # KeyError: ''
```

関連した質問