python Matplotlibでグラフを表示させた際にラベルが表示されない

表題の件で質問させてください。
pythonで形態素解析した内容を学習させ、それを可視化させようと考えています。
その際にグラフ自体は表示されるのですが、ラベルは文字が表示されず写真のように□が表示されています。
途中でprintを使ってlabelsに値が入っているかは確認できました。
どこが原因かわからず苦戦しています。
初歩的な内容だと思いますがアドバイスよろしく」お願いいたします。

環境はWindows上でAnacondaを使用してjupyter notebookでコードを書いています
分かち書きに使用しているのはjanome、word2vecにはgensimのモジュールを使用しています
テキストファイルはwebから適当なダミーを落として使用しています

こちらのサイト、コードを参考にさせていただきました
「OK word2vec ! "マジ卍"の意味を教えて」 Pythonでword2vec実践してみた

python
1from janome.tokenizer import Tokenizer
2from gensim.models import word2vec
3from sklearn.decomposition import PCA
4from sklearn.manifold import TSNE
5import matplotlib.pyplot as plt
6import matplotlib
7import logging
8import sys
9import re
10import numpy as np
11
12
13word=[]
14
15#---------------------------------------------------------textファイルを開く
16
17# \はエラー、\で表記する
18textfile = open('C:\Users\530325\Desktop\sanshiro.txt')
19# textファイルの内容を読み込む(文字列を返す)
20line = textfile.read()
21textfile.close()
22
23#---------------------------------------------------------ファイル整形
24
25# |の除去
26line = line.replace('|','')
27#ルビの除去
28line = re.sub('《.+?》', '', line)
29#入力注の除去
30line = re.sub('［＃.+?］', '', line)
31# 空行の削除
32text = re.sub('\n\n', '\n', line) 
33text = re.sub('\r', '', line)
34
35#---------------------------------------------------------整形結果確認
36
37# 先頭100文字出力
38print(line[:100])
39
40#--------------------------------------------------------関数
41
42## 分かち書き(janome使用)
43# Tokenizerのインスタンス生成
44t = Tokenizer()
45# 文字列型を引数とする
46def extract_words(text, fp=sys.stdout):
47    
48    #tokenizeメソッドに文字列の引数を渡して形態素解析を行う,tokensはlist型
49    #中身は。区切りした文が形態素解析された状態で入っている
50    #うとうととして目がさめると女はいつのまにか、隣のじいさんと話を始めている。
51    #⇒['うとうと', 'と', 'し', 'て', '目', 'が', 'さめる', 'と', '女', 'は', 'いつのまにか', '、', '隣', 'の', 'じいさん', 'と', '話', 'を', '始め', 'て', 'いる']
52    tokens = t.tokenize(text)  
53    
54    for token in tokens:
55        fp.writelines(token.surface)
56        fp.write("\n")
57    
58    
59    #print(tokens)
60    #リスト内包表記を使用して形態素解析されたリストtokensの中身の品詞を、区切りにして原型(引数で受け取ったままの形式)のまま返す 
61    return [token.base_form for token in tokens
62            if token.part_of_speech.split(',')[0]]
63  
64
65
66#--------------------------------------------------------。区切りにする
67
68sentences = line.split('。')
69with open("test_token.txt", "w") as fp:
70    wordlist = [extract_words(sentence,fp) for sentence in sentences]
71
72
73#--------------------------------------------------------word2vec学習開始
74
75model = word2vec.Word2Vec(wordlist, size=200, min_count=5, window=5, iter=100)
76word2vec_model=model
77
78print(model['世間'])    
79#print(model.__dict__['wv']['世間'])
80ret = model.wv.most_similar(positive=['世間']) 
81for item in ret:
82    print(item[0], item[1])    
83    
84    
85#----------------------------------------------------------可視化    
86
87matplotlib.get_configdir()
88%matplotlib inline
89font = {'family': 'IPAexGothic'}
90matplotlib.rc('font',**font)
91matplotlib.rcParams['font.family']
92
93sim_words = [x[0] for x in model.most_similar('世間',topn=200)]
94sim_words.append('世間')
95print(sim_words)
96print(len(sim_words))
97labels = []
98vecs = []
99for w in sim_words:
100    vecs.append(model[w])
101    labels.append(w)
102    
103tsne = TSNE(random_state=0)
104result = tsne.fit_transform(vecs)
105x,y = [],[]
106for v in result:
107    x.append(v[0])
108    y.append(v[1])
109
110
111print(labels[10])
112plt.figure(figsize=(16,8))
113plt.scatter(x,y)
114for i in range(len(x)):
115    plt.annotate(labels[i],
116                xy=(x[i],y[i]),
117                xytext=(0,0),
118                textcoords='offset points'
119                )   
120plt.show()
121

行動規範の内容に同意します

回答1件

ベストアンサー

matplotlibがデフォルトで使用するフォントでは日本語を表示するすることができません。
matplotlibで使用するフォントを日本語が表示できるフォントに設定してください。

『matplotlib 日本語フォント windows』
あたりの検索ワードで設定方法は簡単に検索できるかと思います。

投稿2018/04/27 03:22

magichan

総合スコア15898

---stax---

2018/04/27 05:13

回答ありがとうございます。いくつかのサンプル通り手順をこなしたのですが以下のように表示されます C:\Users\AppData\Local\Continuum\anaconda3\lib\site-packages\matplotlib\font_manager.py:1320: UserWarning: findfont: Font family ['Noto Sans CJK JP'] not found. Falling back to DejaVu Sans (prop.get_family(), self.defaultFamily[fontext])) 参考サイト http://hytmachineworks.hatenablog.com/entry/2017/05/07/200150 https://qiita.com/yniji/items/3fac25c2ffa316990d0c 私の環境ではキャッシュがどこにも見当たらず消す作業が出来ないのでそのせいかもしれません

---stax---

2018/04/27 06:06

解決いたしました。私の環境ではtex.cache、fontList.jsonという2つのキャッシュしかなく、tex.cacheに関しては空でしたが、両方削除するとうまく表示されました。 matplotlibがデフォルトで使用するフォントでは日本語を表示するすることができないと知らなかったので助かりました。ありがとうございます。