テキストに番号を付けて管理したい

Question

###困っていること
入力したファイルのトピックを抽出するための前段階として
指定したディレクトリ内の.txtファイルを用いてLDAモデルを作成するプログラムを実装したのですが、
現在のプログラムの場合全てのファイルの中身を１つの文字列に格納しているので、
どのファイルにどのようなトピックが含まれているのかを調べることができません。

実装したプログラムを以下に記します。
```python
import time
import MeCab
from gensim import corpora, models

#ファイル指定
doc = input('select file(ex, ○○.txt):')

t0 = time.time()

f = open(doc, "r",encoding = "utf-8")
text = f.read()
f.close()

#文字列を改行位置で区切って分割する（形態素解析）
m = MeCab.Tagger ("-Ochasen")
chunks = m.parse(text).splitlines()

sels = []

#絞り込み
for chunk in chunks:
    #chunk:形態素解析結果（１行の文字列）
    #タブ(	)で区切り、文字列リストを作成
    cols = chunk.split('	')
    if len(cols) >= 4:
        #parts[0]:品詞の種類
        parts = cols[3].split('-')
        #指定した品詞で始まっている場合　→　true
        if parts[0].startswith('名詞'):
            #代名詞,非自立名詞,固有名詞,数を含めない
            if parts[0].startswith('名詞') and parts[1] in ['代名詞','非自立','固有名詞','数']:
                continue
            #形態素を追加
            #sels:形態素(原形)のみの行列
            sels.append(cols[2])

#辞書作成
dictionary = corpora.Dictionary([sels])

print(dictionary)

#[辞書の単語数]次元のベクトルに変換(コーパス作成)
corpus = [dictionary.doc2bow(sels)]

"""
print('corpus↓')
print(corpus)
"""

t1 = time.time()

#トピック数
num_topics = 10

#LDAモデルに投入
lda = models.LdaModel(corpus = corpus, id2word = dictionary,num_topics = num_topics)
```

###質問
変数を用意し、ファイルを読み込む毎にインクリメントを行い、
[ファイル番号,そのファイルの中身]・・・①
もしくは
[ファイル番号,そのファイル番号のファイル名]・・・②
といった配列？辞書？のようなデータセットを作成すると
ファイル毎の情報の管理できるのではないかと思っています。
欲張りな相談になってしまうのですが、現在のプログラムとやりたいことを踏まえると、
①と②のどちらが良いなのか、
またどのように実装すれば良いのかアドバイスをいただきたいです。

Accepted Answer

例えば、テキストファイル全てを ``data``ディレクトリに入れておき ``glob`` を使って

```Python
import glob
files = glob.glob('data/*.txt')
print(files)
```

とすると、``data``ディレクトリの中のテキストファイルがリスト化され``files``に入りますので、このリストを使って管理すると良いのではないでしょうか。

このfilesリストを使い、以下のようにループ処理を行うことで、各ファイル毎に文章行列を作成することができます。

```Python
import glob
import MeCab
from gensim import corpora, models

files = glob.glob('data/*.txt')
mecab = MeCab.Tagger ("-Ochasen")
texts = []
for file in files:
    f = open(file, "r",encoding = "utf-8")
    text = f.read()
    f.close()

    chunks = mecab.parse(text).splitlines()

    sels = []
    for chunk in chunks:
        cols = chunk.split('	')
        if len(cols) >= 4:
            parts = cols[3].split('-')
            if parts[0].startswith('名詞'):
                sels.append(cols[2])
    texts.append(sels)

dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]
```

またファイル番号に対応するファイル名は
```Pyton
topic_no = 5
print(files[topic_no])
```
で確認できるかとおもいます。