tf-idf法で文書ベクトルを作成する

前提・実現したいこと

プログラミング初心者です。
pythonでtf-idf法で文書ベクトルを作成しています。
text = "私はりんごを食べました。"
text2 = "りんごを使う料理はアップルパイがあります。"

文書(上記は例ですが)をMeCabで形態素解析しました。
tfを求め、idfを求めた上で、それらを掛け合わせることで文書ベクトルを作成しようと考えています。

tfの値は求める事ができるのですが、idfの求め方に苦労しています。
特に上記のような複数の文書から、それぞれの単語が出現する文書の総数を数え上げる方法が分かりません。

ご教授お願いします。

行動規範の内容に同意します

回答1件

tfの行列をnumpy配列に変換し、0ならFalse、それ以外ならTrueのboolean配列を作って、aixs=0で足せばdfになります（True==1なので）。

python
1>>> import numpy as np
2>>> a = np.array([[0,5,1,0,0,4],[1,0,0,0,2,3],[4,1,0,1,0,0]])
3>>> a
4array([[0, 5, 1, 0, 0, 4],
5       [1, 0, 0, 0, 2, 3],
6       [4, 1, 0, 1, 0, 0]])
7>>> a != 0
8array([[False,  True,  True, False, False,  True],
9       [ True, False, False, False,  True,  True],
10       [ True,  True, False,  True, False, False]])
11>>> (a != 0).sum(axis=0)
12array([2, 2, 1, 1, 1, 2])