tf(Term Frequency)とdf(Document Frequency)の求め方

Question

記事ごとの名詞を格納した2次元リスト
イメージとして
noun = [['私','子育て','問題','問題']['トランプ','今朝','会談','来日']・・・]
「私、子育て、問題」は記事１の名詞集、「トランプ、今朝、会談、来日」は記事２の名詞集
みたいなものを作りました。

そして以下のようにtfとdfを定義して求めたいと思いました。
tf = ある単語の記事内での出現回数 / 記事内のすべての単語の出現回数の和
例えば上の例なら、私：1/4 子育て：1/4 問題：2/4
df = ある単語が出現する記事の数
例えば私という単語が他の記事５つにも出てくるなら私のdf値は5です。

それでtfを求めるためにCounterのmost_commonを使って全単語の出現回数をカウントすることはできたのですが、この出現回数を全部足しすのどうやるんだってところで詰んでしまいました。。。

tfとdfを求めるためのアルゴリズム、手順をご教授いただけないでしょうか(汗)


＜追記＞コードはこんな感じです。
nounsというリストが上で説明したような名刺を入れている2次元のリストになります。
また、jupyter notebookでコードを書いています。

```
from collections import Counter

def flatten_2dim(array):
    return [item for sublist in array for item in sublist] 

counter = Counter(flatten_2dim(nouns))
for word, cnt in counter.most_common():
    print(word, cnt)
```

Accepted Answer

`tf`は、**記事毎**に、さらに（記事内の）**単語毎**に値を持ちます。
`df`は、**単語毎**に値を持ちます。

提示コードでは元データを１次元化することで**記事毎**の情報が抜け落ちてしまっています。
少なくとも`tf`は**記事毎**のループで算出する必要があります。

`Counter`を使っても良いのですが、どうせ`tf`は 頻度 / 合計で算出しなければならないので
以下のように単純なリストと辞書で実装してもよいと思います。
```Python
nouns = [['ブドウ','バナナ'],
        ['レモン','レモン','バナナ','ブドウ'],
        ['ブドウ']]

tfs = [] # 記事毎のリスト。リスト要素は記事内の単語毎のtf値
dfs = {} # 単語毎のdf値
for idx,doc in enumerate(nouns): # idx=記事番号
    tf = {}
    for term in doc:
        TERM_CNT = len(doc) # 記事内の単語数

        # （記事内の）単語毎のtf値
        if term not in tf:
            tf[term] = 0
        tf[term] += 1 / TERM_CNT # コード短縮のため、割り込むと同時に足す

        # 単語毎のdf値
        if term not in dfs:
            dfs[term] = set()
        dfs[term].add(idx) # 集合(set)で記事番号(idx)を保持

    tfs.append(tf)

# 記事番号の集合の大きさ＝出現数
for term,doc_set in dfs.items():
    dfs[term] = len(doc_set)

print('nouns:',nouns)
print('tfs:',tfs)
print('dfs:',dfs)
"""
nouns: [['ブドウ', 'バナナ'], ['レモン', 'レモン', 'バナナ', 'ブドウ'], ['ブドウ']]
tfs: [{'バナナ': 0.5, 'ブドウ': 0.5}, {'レモン': 0.5, 'ブドウ': 0.25, 'バナナ': 0.25}, {'ブドウ': 1.0}]
dfs: {'バナナ': 2, 'ブドウ': 3, 'レモン': 1}
"""
```

関連した質問