辞書の単語を調整したい

Question

###困っていること
トピックモデルのライブラリgensimを使っているのですが、
gensimの関数である
gensim.corpora.dictionary.filter_extremes()関数についての質問です。
この関数の引数,no_belowとno_aboveはそれぞれ
no_below:出現回数no_below回以下の単語を無視
no_above:全体のno_above以上に出現した単語を無視(no_above = 0.3 ➝ 30%)
という認識で使っているのですが、パラメータを調整する際に
no_above = 1としたところ、私が実装したプログラムでは単語が一定数含まれていました。
逆にno_above = 0とすると単語がなくなったというエラー(no terms error)が出ます。

この関数の使い方を調べてみても値について詳しく書かれているものがなく、
どのような値に設定すればよいのか悩んでいます。

no_belowとno_aboveがそれぞれ何を表しているのか教えていただきたいです。

実装中のプログラムに問題があるとも考えられるので、
以下に記します。
```python
#!/usr/bin/env python3
# -*- coding: utf-8 -*-

"""
トピックモデル(入力:novel_setの全ての.txtファイル)
各ファイルの管理可能
形態素解析対象:名詞(代名詞,非自立名詞,数,固有名詞を除く)
ＮＧワード：あり
"""

import time
import glob
import MeCab
from gensim import corpora, models, similarities

def morphological_analysis(file_list, NG_WORDS):
    mecab = MeCab.Tagger ("-Ochasen")

    texts = []

    for file in file_list:
        f = open(file, "r",encoding = "utf-8")
        text = f.read()
        f.close()
        #形態素解析(文字列を改行位置で区切って分割）
        chunks = mecab.parse(text).splitlines()

        #絞り込み
        sels = []
        for chunk in chunks:
            cols = chunk.split('	')
            if len(cols) >= 4:
                parts = cols[3].split('-')
                #指定した品詞で始まっている場合　→　true
                if parts[0].startswith('名詞'):
                    #代名詞,非自立名詞,固有名詞,数を含めない
                    if parts[1] in ['代名詞','非自立','固有名詞','数']:
                        continue
                    #ＮＧワードを含めない
                    if cols[2] in NG_WORDS:
                        continue
                    #形態素を追加
                    sels.append(cols[2])
        texts.append(sels)
    return texts

t0 = time.time()

#file_list[file_no]:ファイル番号file_noのファイル名
file_list = glob.glob('novel_set/*.txt')

NG_WORDS = ['一','二','三','四','五','六','七','八','九','ー','-']

#形態素解析
texts = morphological_analysis(file_list, NG_WORDS)
dictionary = corpora.Dictionary(texts)
print('辞書単語数(加工前):%d'%len(dictionary))

#辞書加工
"""
no_below:出現回数no_below回以下の単語を無視
no_above:全体のno_above以上に出現した単語を無視(no_above = 0.3 ➝ 30%)
"""
dictionary.filter_extremes(no_below = 3,no_above = 1)

#コーパス作成
corpus = [dictionary.doc2bow(text) for text in texts]

t1 = time.time()

"""
num_topics:トピック数
"""
#LDAモデルに投入
lda = models.LdaModel(corpus = corpus, id2word = dictionary, num_topics = 6)

t2 = time.time()

print(lda)

#各トピックにおける各トークンの出現確率を係数で表示
for topic in lda.show_topics(-1):
    print(topic)

print('ファイル数:%d'%len(file_list))

corpus_time = t1 - t0
print('コーパス生成時間：%f秒'%corpus_time)

lda_time = t2 -t1
print('LDAモデル生成時間：%f秒'%lda_time)

total_time = t2 - t0
print('合計時間：%f秒'%total_time)
```

Answer

https://github.com/samantp/gensimPy3/blob/develop/gensim/corpora/dictionary.py

```python
no_above_abs = int(no_above * self.num_docs)
good_ids = (v for v in self.token2id.values() if no_below <= self.dfs[v] <= no_above_abs)
```
なので、正しく理解していますよ。
no_above = 0だと一回でも出現した単語を弾くので、一度も出現していない単語しか拾えません。
一度も出現していないので、単語がありません。

関連した質問