tf(Term Frequency)とdf(Document Frequency)の求め方

記事ごとの名詞を格納した2次元リスト
イメージとして
noun = [['私','子育て','問題','問題']['トランプ','今朝','会談','来日']・・・]
「私、子育て、問題」は記事１の名詞集、「トランプ、今朝、会談、来日」は記事２の名詞集
みたいなものを作りました。

そして以下のようにtfとdfを定義して求めたいと思いました。
tf = ある単語の記事内での出現回数 / 記事内のすべての単語の出現回数の和
例えば上の例なら、私：1/4 子育て：1/4 問題：2/4
df = ある単語が出現する記事の数
例えば私という単語が他の記事５つにも出てくるなら私のdf値は5です。

それでtfを求めるためにCounterのmost_commonを使って全単語の出現回数をカウントすることはできたのですが、この出現回数を全部足しすのどうやるんだってところで詰んでしまいました。。。

tfとdfを求めるためのアルゴリズム、手順をご教授いただけないでしょうか(汗)

＜追記＞コードはこんな感じです。
nounsというリストが上で説明したような名刺を入れている2次元のリストになります。
また、jupyter notebookでコードを書いています。

from collections import Counter

def flatten_2dim(array):
    return [item for sublist in array for item in sublist] 

counter = Counter(flatten_2dim(nouns))
for word, cnt in counter.most_common():
    print(word, cnt)

can110

2017/11/07 05:50

途中までで良いのでコードを提示ください。

退会済みユーザー

2017/11/07 07:17

すみません、そうですよね。。。

行動規範の内容に同意します

回答1件

ベストアンサー

tfは、記事毎に、さらに（記事内の）単語毎に値を持ちます。
dfは、単語毎に値を持ちます。

提示コードでは元データを１次元化することで記事毎の情報が抜け落ちてしまっています。
少なくともtfは記事毎のループで算出する必要があります。

Counterを使っても良いのですが、どうせtfは頻度 / 合計で算出しなければならないので
以下のように単純なリストと辞書で実装してもよいと思います。

Python
1nouns = [['ブドウ','バナナ'],
2        ['レモン','レモン','バナナ','ブドウ'],
3        ['ブドウ']]
4
5tfs = [] # 記事毎のリスト。リスト要素は記事内の単語毎のtf値
6dfs = {} # 単語毎のdf値
7for idx,doc in enumerate(nouns): # idx=記事番号
8    tf = {}
9    for term in doc:
10        TERM_CNT = len(doc) # 記事内の単語数
11
12        # （記事内の）単語毎のtf値
13        if term not in tf:
14            tf[term] = 0
15        tf[term] += 1 / TERM_CNT # コード短縮のため、割り込むと同時に足す
16
17        # 単語毎のdf値
18        if term not in dfs:
19            dfs[term] = set()
20        dfs[term].add(idx) # 集合(set)で記事番号(idx)を保持
21
22    tfs.append(tf)
23
24# 記事番号の集合の大きさ＝出現数
25for term,doc_set in dfs.items():
26    dfs[term] = len(doc_set)
27
28print('nouns:',nouns)
29print('tfs:',tfs)
30print('dfs:',dfs)
31"""
32nouns: [['ブドウ', 'バナナ'], ['レモン', 'レモン', 'バナナ', 'ブドウ'], ['ブドウ']]
33tfs: [{'バナナ': 0.5, 'ブドウ': 0.5}, {'レモン': 0.5, 'ブドウ': 0.25, 'バナナ': 0.25}, {'ブドウ': 1.0}]
34dfs: {'バナナ': 2, 'ブドウ': 3, 'レモン': 1}
35"""