Chainerの評価関数(precision, recall)について

前提・実現したいこと

GooglecolabolatryでChainerを用いた機械学習のコードを書いています. Cheiner公式のチュートリアルを参考にコードを書きました. Cheinerを用いて評価関数を使いたいです. accuracyについては求められましたが、precision, recallについてはエラーが出てしまいました. Cheinerのソースコード(https://github.com/chainer/chainer/blob/v3.2.0/chainer/functions/evaluation/classification_summary.py#L70)も見るには見たのですがよく理解できませんでした. 素人の質問で申し訳ありませんがよろしくお願いいたします.

発生している問題・エラーメッセージ

Mounted at /content/drive
x: (9054, 16)
t: (9054,)
/usr/local/lib/python3.6/dist-packages/chainer/functions/evaluation/classification_summary.py:65: RuntimeWarning: invalid value encountered in true_divide
  precision = tp / relevant
---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-24-c1e4fa7dbf8f> in <module>()
    124     loss_list.append(loss_train_batch.array)
    125     accuracy_list.append(accuracy_train_batch.array)
--> 126     precision_list.append(precision_train_batch.array)
    127     recall_list.append(recall_train_batch.array)
    128 

AttributeError: 'tuple' object has no attribute 'array'

該当のソースコード

python
1import chainer #Chainerのインポート
2from chainer import Variable
3import numpy as np
4import pandas as pd
5from sklearn.model_selection import train_test_split # データセットを分割するモジュールの読み込み
6from google.colab import drive #google driveに保存したcsvファイル(入力データ)の読み込み
7import chainer.links as L
8import chainer.functions as F
9from chainer import Sequential
10from sklearn.metrics import precision_score
11from sklearn.metrics import recall_score
12from sklearn.metrics import confusion_matrix
13
14#chainer.print_runtime_info() #Cheinerのバージョンや実行環境の確認
15
16
17####データセットの準備####
18
19#------------------------------------------------------------#
20# データセットの読み込み
21drive.mount('/content/drive', force_remount=True)
22df = pd.read_csv('drive/My Drive/Colab Notebooks/sequence.csv')
23
24x = np.array(df.iloc[:, :16])
25t = np.array(df.iloc[:, 16])
26
27print('x:', x.shape)
28print('t:', t.shape)
29
30#それぞれデータ型を変換
31x = x.astype('float32')
32t = t.astype('int32')
33
34#print(type(x))
35#print(type(t))
36
37x_train_val, x_test, t_train_val, t_test = train_test_split(x, t, test_size=0.3) #random_state=0
38
39x_train, x_val, t_train, t_val = train_test_split(x_train_val, t_train_val, test_size=0.3)
40
41#----------------------------------------------------------------#
42
43####ネットワークの決定####
44
45#----------------------------------------------------------------#
46# net としてインスタンス化
47n_input = 16
48n_hidden = 20
49n_output = 2
50
51net = Sequential(
52    L.Linear(n_input, n_hidden), F.relu,
53    L.Linear(n_hidden, n_hidden), F.relu,
54    L.Linear(n_hidden, n_output)
55)
56
57#----------------------------------------------------------------#
58
59####最適化手法を選択する####
60
61#----------------------------------------------------------------#
62optimizer = chainer.optimizers.SGD(lr=0.01)
63
64optimizer.setup(net)
65
66#----------------------------------------------------------------#
67
68####ネットワークの訓練####
69
70#----------------------------------------------------------------#
71n_epoch =100
72n_batchsize = 100
73#----------------------------------------------------------------#
74
75iteration = 0
76
77#ログの保存用
78results_train = {
79    'loss': [], #誤差
80    'accuracy': [], #正答率
81    'precision': [], #適合率
82    'recall': [] #再現率(感度)
83}
84results_valid = {
85    'loss': [],
86    'accuracy': [],
87    'precision': [],
88    'recall': []
89}
90
91for epoch in range(n_epoch):
92
93  #データセットを並べ替えた順番を取得
94  order = np.random.permutation(range(len(x_train)))
95
96  #各バッチ毎の目的関数の出力と分類制度の保存用
97  loss_list = []
98  accuracy_list = []
99  precision_list = []
100  recall_list = []
101
102  for i in range(0, len(order), n_batchsize):
103    #バッチを準備
104    index = order[i:i+n_batchsize]
105    x_train_batch = x_train[index, :16]
106    t_train_batch = t_train[index]
107
108    #予測値を出力
109    y_train_batch = net(x_train_batch)
110
111    #目的関数を適用し、分類制度を計算
112    loss_train_batch = F.softmax_cross_entropy(y_train_batch, t_train_batch)
113    accuracy_train_batch = F.accuracy(y_train_batch, t_train_batch)
114    precision_train_batch = F.precision(y_train_batch, t_train_batch)
115    recall_train_batch = F.recall(y_train_batch, t_train_batch)
116
117    loss_list.append(loss_train_batch.array)
118    accuracy_list.append(accuracy_train_batch.array)
119    precision_list.append(precision_train_batch.array) #エラー箇所
120    recall_list.append(recall_train_batch.array)
121
122    #勾配のリセットと勾配の計算
123    net.cleargrads()
124    loss_train_batch.backward()
125
126    #パラメータの更新
127    optimizer.update()
128
129    #カウントアップ
130    iteration += 1
131
132  #訓練データに対する目的関数の出力と分類制度を集計
133  loss_train = np.mean(loss_list)
134  accuracy_train = np.mean(accuracy_list)
135  precision_train = np.mean(precision_list)
136  recall_train = np.mean(recall_list)
137
138  #1エポック終えたら、検証データで評価
139  #検証データで予測値を出力
140  with chainer.using_config('train', False), chainer.using_config('enable_backprop', False):
141    y_val = net(x_val)
142
143  # 目的関数を適用し、分類精度を計算
144  loss_val = F.softmax_cross_entropy(y_val, t_val)
145  accuracy_val = F.accuracy(y_val, t_val)
146  precision_val = F.precision(y_val, t_val)
147  recall_val = F.recall(y_val, t_val)
148
149  # 結果の表示
150  print('epoch: {}, iteration: {}, loss (train): {:.4f}, loss (valid): {:.4f}'.format(
151        epoch, iteration, loss_train, loss_val.array))
152
153  # ログを保存
154  results_train['loss'].append(loss_train)
155  results_train['accuracy'].append(accuracy_train)
156  results_train['precision'].append(precision_train)
157  results_train['recall'].append(recall_train)
158
159  results_valid['loss'].append(loss_val.array)
160  results_valid['accuracy'].append(accuracy_val.array)
161  results_valid['precision'].append(precision_val.array)
162  results_valid['recall'].append(recall_val.array)
163
164%matplotlib inline
165import matplotlib.pyplot as plt
166
167# 目的関数の出力 (loss)
168plt.plot(results_train['loss'], label='train')  # label で凡例の設定
169plt.plot(results_valid['loss'], label='valid')  # label で凡例の設定
170plt.legend()  # 凡例の表示
171plt.xlabel('epoch')
172plt.ylabel('loss')
173plt.show()
174
175# 分類精度 (accuracy)
176plt.plot(results_train['accuracy'], label='train')  # label で凡例の設定
177plt.plot(results_valid['accuracy'], label='valid')  # label で凡例の設定
178plt.legend()  # 凡例の表示
179plt.xlabel('epoch')
180plt.ylabel('accuracy')
181plt.show()
182
183#適合率(precision)
184plt.plot(results_train['precision'], label='train')  # label で凡例の設定
185plt.plot(results_valid['precision'], label='valid')  # label で凡例の設定
186plt.legend()  # 凡例の表示
187plt.xlabel('epoch')
188plt.ylabel('precision')
189plt.show()
190
191#再現率(recall)
192plt.plot(results_train['recall'], label='train')  # label で凡例の設定
193plt.plot(results_valid['recall'], label='valid')  # label で凡例の設定
194plt.legend()  # 凡例の表示
195plt.xlabel('epoch')
196plt.ylabel('recall')
197plt.show()
198
199chainer.serializers.save_npz('my_sequence.net', net)
200!ls

試したこと

補足情報（FW/ツールのバージョンなど）

ここにより詳細な情報を記載してください。

meg_

2020/07/26 15:24

エラーメッセージによるとprecision_train_batchはタプルのようです。リストにタプルのまま追加するか、タプルから要素を取り出して追加する必要がありそうです。

tkrd

2020/07/27 08:21

コメントありがとうございます. エラー箇所についてはタプルをリストに変換することで回避できました. しかし、その後変換したリストをVariable型に再度変換したところ別のエラーが発生してしまい、変換した配列を出力してみたところ意図しない出力結果になってしまいました. お手数ですがご教授いただけると幸いです. ###プログラムの変更箇所### #目的関数を適用し、分類制度を計算 loss_train_batch = F.softmax_cross_entropy(y_train_batch, t_train_batch) accuracy_train_batch = F.accuracy(y_train_batch, t_train_batch) precision_train_batch = F.precision(y_train_batch, t_train_batch) recall_train_batch = F.recall(y_train_batch, t_train_batch) precision_train_batch_list = list(precision_train_batch) #listに変換 precision_np_train_batch = np.array(precision_train_batch_list) #numpy.arrayに変換 precision_variable_train_batch = Variable(precision_np_train_batch) #Variable型に変換 recall_train_batch_list = list(recall_train_batch) recall_np_train_batch = np.array(recall_train_batch_list) recall_variable_train_batch = Variable(recall_np_train_batch) print("accuracy_train_batch=") print(accuracy_train_batch) print("precision_variable_train_batch=") print(precision_variable_train_batch) ###配列の中身の出力 accuracy_train_batch= variable(0.5) precision_variable_train_batch= variable([[variable(nan) variable(0.5)] [variable(50) variable(50)]]) accuracy_train_batch= variable(0.55) precision_variable_train_batch= variable([[variable(0.55) variable(nan)] [variable(55) variable(45)]]) ###エラー文 InvalidType: Invalid operation is performed in: _ + _ (Forward) Expect: lhs.dtype == rhs.dtype Actual: float64 != int64

meg_

2020/07/27 11:19

エラー発生箇所は「recall_variable_train_batch = Variable(recall_np_train_batch)」ですか？ recall_np_train_batchの中身はどういうものですか？

tkrd

2020/07/27 11:42

抜けがありすみません。エラー箇所は precision_train = np.mean(precision_list)です recall_np_train_batchの中身はrecall_train_batch_listをnumpy.arrayに変換したものになります。

meg_

2020/07/27 12:19

エラーメッセージは全文提示いただかないと内容がよく分かりません。

tkrd

2020/07/27 12:36

大変申し訳ありませんでした。以下に記載させていただきます。 -------------------------------------------------------------------------- InvalidType Traceback (most recent call last) <ipython-input-17-9c101ae27dbb> in <module>() 152 loss_train = np.mean(loss_list) 153 accuracy_train = np.mean(accuracy_list) --> 154 precision_train = np.mean(precision_list) 155 recall_train = np.mean(recall_list) 156 <__array_function__ internals> in mean(*args, **kwargs) /usr/local/lib/python3.6/dist-packages/chainer/utils/type_check.py in expect(self) 495 raise InvalidType( 496 '{0} {1} {2}'.format(self.lhs, self.exp, self.rhs), --> 497 '{0} {1} {2}'.format(left, self.inv, right)) 498 499 InvalidType: Invalid operation is performed in: _ + _ (Forward) Expect: lhs.dtype == rhs.dtype Actual: float64 != int64

meg_

2020/07/27 13:15

precision_listはVariableのリストですか？ Variableにnp.meanは使えないかと思います。

tkrd

2020/07/28 08:08

ご指摘の通りでした。解決いたしました。ありがとうございました。