pythonで全てのデータの類似度を算出する

プログラム初心者です。
pythonで3000近くある.txtデータの中に入っているテキストデータの類似度を算出したいです。
いくつかのデータから類似度を算出することはできたのですが、多くのデータを扱うときはどのようにするのが良いのでしょうか…？
全てのデータから2通りを選ぶ全組み合わせを獲得し、全てのペアの類似度の算出を行いたいです。
ご協力をおねがいします。

python
1
2# -*-coding: utf-8 -*-
3import numpy as np
4from sklearn.feature_extraction.text import TfidfVectorizer
5from sklearn.metrics.pairwise import cosine_similarity
6from sklearn.feature_extraction.text import TfidfTransformer
7
8from  janome.tokenizer import Tokenizer
9
10filenames=['output/aa0001.txt','output/aa0002.txt','output/aa0003.txt','output/aa0004.txt','output/aa0005.txt']
11wakati_list = []
12for filename in filenames: 
13    with open(filename,mode='r',encoding = 'utf-8-sig') as f:
14        text = f.read()    
15    wakati = ''
16    t = Tokenizer() 
17    for token in t.tokenize(text):  
18        hinshi = (token.part_of_speech).split(',')[0]  
19        hinshi_2 = (token.part_of_speech).split(',')[1]
20        if hinshi in ['名詞']:  
21            if not hinshi_2 in ['空白','*']:  
22                word = str(token).split()[0]  
23                if not ',*,' in word:
24                    wakati = wakati + word +' ' 
25
26    wakati_list.append(wakati) 
27wakati_list_np = np.array(wakati_list)
28
29vectorizer = TfidfVectorizer(token_pattern=u'\b\w+\b')
30transformer = TfidfTransformer()
31tf = vectorizer.fit_transform(wakati_list_np) 
32
33tfidf = transformer.fit_transform(tf) # TF-IDF
34
35tfidf_array = tfidf.toarray()
36cs = cosine_similarity(tfidf_array,tfidf_array)  
37print(cs)
38

行動規範の内容に同意します

回答1件

以下のコードを参考にして、ご自身のコードを作ってください。

python
1>>> from itertools import combinations
2>>>
3>>> filelist = ['short.txt', 'longlong.txt', 'longlonglong.txt']
4>>>
5>>> def compare(file1, file2):
6...     if len(file1) > len(file2):
7...         print(f'"{file1}" is longer than "{file2}"')
8...     else:
9...         print(f'"{file2}" is longer than "{file1}"')
10...
11>>> for file1, file2 in combinations(filelist, 2):
12...     compare(file1, file2)
13...
14"longlong.txt" is longer than "short.txt"
15"longlonglong.txt" is longer than "short.txt"
16"longlonglong.txt" is longer than "longlong.txt"