doc2vecで作成したモデルのクラスタリング結果の出力について

まず、下記のコードで学習モデルを作成しています

python
1import zipfile
2import os.path
3import MeCab
4from gensim import models
5from gensim.models.doc2vec import TaggedDocument
6
7#Mecabの初期化
8mecab = MeCab.Tagger()
9mecab.parse("")
10
11#学習対象とする青空文庫の作品リスト
12inBook_list = [
13    {"auther":{
14        "name":"夏目 漱石",
15     "books":[
16        {"name":"吾輩は猫である","zipname":"789_ruby_5639.zip"},
17        {"name":"門","zipname":"785_ruby_1656.zip"},
18        {"name":"こころ","zipname":"773_ruby_5968.zip"},
19        {"name":"坊つちやん","zipname":"752_ruby_2438.zip"},
20        {"name":"それから","zipname":"56143_ruby_50824.zip"}
21    ]},
22    {"auther":{
23        "name":"江戸川 乱歩",
24     "books":[
25        {"name":"怪人二十面相","zipname":"57228_ruby_58697.zip"},
26        {"name":"一寸法師","zipname":"58053_ruby_62788.zip"},
27        {"name":"探偵少年","zipname":"56686_ruby_65429.zip"},
28        {"name":"鉄人Ｑ","zipname":"57108_ruby_60855.zip"},
29        {"name":"悪魔の紋章","zipname":"57240_ruby_60876.zip"}
30    ]}
31]
32
33#作品リストを取得してループ処理に渡す
34def book_list():
35    for novelist in inBook_list:
36        auther = novelist["auther"]
37        for book in novelist["books"]:
38            yield auther, book
39        
40#Zipファイルを開き、中の文書を取得する
41def read_book(auther, book):
42    zipname = book["zipname"]
43    #Zipファイルを開く
44    with zipfile.ZipFile(zipname,"r") as zf:
45        #Zipファイルに含まれるファイルを開く。今回のZIPは一つのテキストファイルのみ含む。
46        for filename in zf.namelist():
47            with zf.open(filename,"r") as f:
48                #今回読むファイルはShift-JISなので指定してデコードする
49                return f.read().decode("shift-jis")
50
51#引数のテキストを分かち書きして配列にする
52def split_words(text):
53（略）
54    return wakati_words
55
56#作品リストをTaggedDocument形式にし、配列に追加する
57documents = []
58#作品リストをループで回す
59for auther, book in book_list():
60    #作品の文字列を取得
61    words = read_book(auther, book)
62    #作品の文字列を分かち書きに
63    wakati_words = split_words(words)
64    #TaggedDocumentの作成　文書=分かち書きにした作品　タグ=作者:作品名
65    document = TaggedDocument(
66        wakati_words, [auther["name"] + ":" + book["name"]])
67    documents.append(document)
68    
69#TaggedDocumentの配列を使ってDoc2Vecの学習モデルを作成 --- (*6)
70model = models.Doc2Vec(
71    documents, dm=1, vector_size=300, window=5, min_count=1)
72
73#Doc2Vecの学習モデルを保存
74model.save('test.model')
75
76print("モデル作成完了")

次に、下記コードでクラスタリングを行っています

python
1from gensim.models.doc2vec import Doc2Vec
2from gensim.models.doc2vec import TaggedDocument
3from gensim import models
4from sklearn.cluster import KMeans
5import sys
6from collections import defaultdict
7import numpy as np
8import matplotlib.pyplot as plt
9
10#K-means法によるクラスタリング
11
12#保存したDoc2Vec学習モデルを読み込み
13m = models.Doc2Vec.load('test.model')
14
15#ベクトルをリストに格納
16vectors_list=[m.docvecs[n] for n in range(len(m.docvecs))]
17
18#ドキュメント番号のリスト
19doc_nums=range(1,1+len(m.docvecs))
20
21#クラスタリング設定
22n_clusters = 3
23kmeans_model = KMeans(n_clusters=n_clusters, verbose=1, random_state=1, n_jobs=-1)
24
25#クラスタリング実行
26kmeans_model.fit(vectors_list)
27
28#クラスタリングデータにラベル付け
29labels=kmeans_model.labels_
30
31#ラベルとドキュメント番号の辞書づくり
32cluster_to_docs = defaultdict(list)
33for cluster_id, doc_num in zip(labels, doc_nums):
34    cluster_to_docs[cluster_id].append(doc_num)
35
36#クラスター出力
37for docs in cluster_to_docs.values():
38    print(docs)

すると、出力結果として下記が得られます。

[1, 2, 3, 4, 5, 7, 10]
[6]
[8, 9]

どうやらクラスタリング自体は出来ているように見えるのですが、このままだと何が何やらわかりません。
クラスタリング結果として作品名や著者名を出力する方法はありますか？

追記
修正依頼が来ていても何を求められているのか不明です。

meg_

2020/05/15 08:40

質問のコードはご自身が作成されたものですか？

行動規範の内容に同意します

回答1件

自己解決

出力されている番号を要素番号として、モデル作成の過程でできた配列documentsから値を取得することで求める結果が得られました
◆修正前

python
1#ラベルとドキュメント番号の辞書づくり
2cluster_to_docs = defaultdict(list)
3for cluster_id, doc_num in zip(labels, doc_nums):
4    cluster_to_docs[cluster_id].append(doc_num)

◆修正後

python
1#ラベルとドキュメント番号の辞書づくり
2cluster_to_docs = defaultdict(list)
3for cluster_id, doc_num in zip(labels, doc_nums):
4    cluster_to_docs[cluster_id].append(documents[doc_num-1][1])