Pythonのcos類似度が0になる原因

Question

### 前提・実現したいこと

現在Jupiter NoteBookのpython3.Xを用いて，
名詞などをKeyWordとして文章の類似度を測るシステムを作っており，
方法としては，文章はTF-IDfでベクトル化し，
その後KeyWordを任意で決めてそれをもとにcos類似度でKeyWordに近い文章を見つけます．
しかし，抽出した文章タイトルは妥当なのですが，類似度が全て0になっておりその原因が特定できませんでした．
エラー関係ではないのですが，もしよろしければ教えていただけると助かります．
よろしくお願いいたします．

実行に必要なデータは以下に挙げております（約20MB）．
・Re_AllWord.txt  (各文章における単語群list)
・Re_AllTitle.txt (各文章のタイトル)
・inf.csv　　　　 (上記2ファイルの紐づけの確認用)
・merosu.txt      (類似度を測るために用いた単語群)
https://38.gigafile.nu/1126-548e963235e3f9919a804f109419fb42


### 該当のソースコード

```python
import pickle
import numpy as np
import csv
import pandas as pd
import re
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer



#呼び出し
f = open("Re_AllWord.txt","rb")
Word = pickle.load(f)

f = open("Re:AllTitle.txt","rb")
Title = pickle.load(f)

df = pd.read_csv('inf.csv', header=0, encoding = 'sjis_2004')
name = df["題目"].tolist()


### 全データのTF-IDF ###
Tname = []

vectorizer = CountVectorizer(token_pattern=u'(?u)\b\w+\b',min_df=3,max_df=5, max_features=10000)
transformer = TfidfTransformer()
tf = vectorizer.fit_transform(Word) # 単語の出現頻度を計算
tfidf = transformer.fit_transform(tf)

X = tfidf.toarray()
ALL = [X,Title]


### 類似度を確認したいデータの準備 ###
"""
### データの用意 ###
test1 = ['君 私 犬 好き']
test2 = ['私 犬 嫌い']
test3 = ['あなた 木 薄い']
test4 = ['貴行 殿 薩']
corpus = test1+test2+test3+test4
"""
f = open("merosu.txt","rb")
merosu = pickle.load(f)
kye_words = merosu
#kye_words = ['メロス セリヌンティウス']
#kye_words = ['犬']

sample_tf = vectorizer.transform(kye_words)
# sampleのTF-IDFを計算する
sample_tfidf = transformer.transform(sample_tf)

# コサイン類似度の計算
similarity = cosine_similarity(sample_tfidf, ALL[0])[0]
topn_indices = np.argsort(similarity)[::-1][:5]
    
for i in range(len(topn_indices)):
    print(Title[topn_indices[i]])
    print(similarity[i])
　　#上記を"similarity[topn_indices[i]]"で出てきました．
    Tname.append(Title[topn_indices[i]])


#コメントアウトの箇所は，「ALL = [X,Title]」での文章タイトルがcsvファイルと一致しているか確認してます
for i in range(len(Tname)):
    #print(Tname[i])
    for j in range(len(name)):
        if(Tname[i] == name[j]):
            num = j 
            html =df.iloc[j][0] 
            title=df.iloc[j][1]
            Url  =df.iloc[j][2]
            #print(df.iloc[j][1])
            
```

### 試したこと

cos類似度の算出は，以下を参照いたしました．
https://www.pytry3g.com/entry/cosine_similarity

その際，コードにある短いコーパスでKeyWordを「犬」にすると類似度は出てきたため，単語数の兼ね合いかと思いある文章に出現した単語すべてをKeyWordにしたのですが結果は類似度は全て0になっていました．

### 補足情報（FW/ツールのバージョンなど）
今回対象文書数が11176文章と多く，
対象のデータは青空文庫の形態素解析データ集
http://aozora-word.hahasoha.net/download.html 内の，
・utf8_all.csv.gz　　　　　(全文章の形態素解析結果)
・aozora_word_list_sjis.zip(文章とタイトルの紐づけ用)
ギガファイルのデータはここから作成しました．

Accepted Answer

Qiitaの　[cos類似度の次元の呪いをお祓いしてみた](https://qiita.com/17ec084/items/03b7327ea10051a948a4)　という記事は読まれたことがありますか？
標本サイズが大きくなればなるほど、「無作為な2データ間」での相関係数が０に近づくという問題に関しての解説です。

対象文書が１万点以上、データ量は20MB(漢字１文字が２バイトだとすると、１０００万文字)と巨大なデータを扱おうとしているところに、ひょっとすると落とし穴があるにではないかと思った次第です。

対象文書を１００点以下、１文書の文字数を上限１万文字以下、などというように対象データを小さくして動作確認をしてみては如何でしょうか。
（思い付きなので、うまくいくかどうか保証の限りではありませんが）

Answer

for i in range(len(topn_indices)):
    print(Title[topn_indices[i]])
    print(similarity[i])
    Tname.append(Title[topn_indices[i]])

内の
print(similarity[i])を
similarity[topn_indices[i]]に変更したらいけました．

前提・実現したいこと

該当のソースコード

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問