[ArcFace実装] ラベル情報を付加せずに画像だけを推論に用いることのできる1入力モデルを構築したい

前提

現在，pythonを用いてResNet50v2＋ArcFaceのモデルを実装しています.
こちらのサイトと，こちらのコードを参考にしモデルを構築しました.

実現したいこと

以下に現在使用しているコードを示します.
現在使用しているモデルでは学習データに，[画像データ，それに対応するone-hotベクトル化したクラスラベル]の2入力を必要とするモデルとなっています.
しかしこれでは推論時に，未知画像に対しそれに対応するクラスラベルもいちいち決めて入力しないといけません.
そのため，このモデルを画像データのみの1入力のモデルに変更した方が利便性が向上すると考えたため，これを実現したいです.

該当のソースコード

現在使用しているソースコードです.

python
1# 総クラス数，エポック数，入力画像のサイズを指定
2num_classes = 29 
3epochs = 100
4height = 110 # 像のピクセル数(縦)
5width  = 110 # 像のピクセル数(横)

python
1class Arcfacelayer(Layer):
2    # s:softmaxの温度パラメータ, m:margin
3    def __init__(self, output_dim, s, m, easy_margin=False):
4        self.output_dim = output_dim
5        self.s = s
6        self.m = m
7        self.easy_margin = easy_margin
8        super(Arcfacelayer, self).__init__()
9    
10    def get_config(self):
11        config = {
12            "output_dim" : self.output_dim,
13            "s" : self.s,
14            "m" : self.m,
15            "easy_margin" : self.easy_margin
16        }
17        base_config = super().get_config()
18        return dict(list(base_config.items()) + list(config.items()))
19    
20
21    # 重みの作成
22    def build(self, input_shape):
23        print(f'buildのinput_shape：{input_shape}')
24        # Create a trainable weight variable for this layer.
25        self.kernel = self.add_weight(name='kernel',
26                                        shape=(input_shape[0][1], self.output_dim),
27#                                         shape=(1024, self.output_dim),
28                                        initializer='uniform',
29                                        trainable=True)
30        super(Arcfacelayer, self).build(input_shape)
31
32
33    # mainの処理 
34    def call(self, x):
35        
36        y = x[1]
37        x_normalize = tf.math.l2_normalize(x[0]) # x = x'/ ||x'||2
38        k_normalize = tf.math.l2_normalize(self.kernel) # Wj = Wj' / ||Wj'||2
39
40        cos_m = K.cos(self.m)
41        sin_m = K.sin(self.m)
42        th = K.cos(np.pi - self.m)
43        mm = K.sin(np.pi - self.m) * self.m
44
45        cosine = K.dot(x_normalize, k_normalize) # W.Txの内積
46        sine = K.sqrt(1.0 - K.square(cosine))
47
48        phi = cosine * cos_m - sine * sin_m #cos(θ+m)の加法定理
49
50        if self.easy_margin:
51            phi = tf.where(cosine > 0, phi, cosine) 
52
53        else:
54            phi = tf.where(cosine > th, phi, cosine - mm) 
55
56        # 正解クラス:cos(θ+m) 他のクラス:cosθ 
57        output = (y * phi) + ((1.0 - y) * cosine) 
58        output *= self.s
59
60        return output
61
62    def compute_output_shape(self, input_shape):
63        return (input_shape[0][0], self.output_dim) #入力[x,y]のためx[0]はinput_shape[0][0]

python
1# ResNet50v2 + ArcFace定義
2# 学習に使用
3def create_arcface_with_resnet50v2(input_shape, s, m):
4    # ResNet50V2の入力層の前に独自の入力層を追加
5    input_tensor = input_shape
6    
7    input_model = Sequential()
8    input_model.add(InputLayer(input_shape=input_tensor))
9    input_model.add(Conv2D(3, (7, 7), padding='same'))
10    input_model.add(BatchNormalization())
11    input_model.add(Activation('relu'))
12    
13    resnet50v2 = ResNet50V2(include_top=False, weights=None, input_tensor=input_model.output)
14
15#     DLしてある重みの読み込み
16    resnet50v2.load_weights('save_model(weights_imagenet)/weights_imagenet.hdf5', by_name=True)
17
18    flat = Flatten()(resnet50v2.layers[-1].output)
19    dense = Dense(512, activation="relu", name="hidden")(flat)
20    
21    x = BatchNormalization()(dense)
22    
23    yinput = Input(shape=(num_classes,)) #ArcFaceで使用
24    
25    s_cos = Arcfacelayer(num_classes, s, m)([x,yinput]) #outputをクラス数と同じ数に
26    prediction = Activation('softmax')(s_cos)
27 
28    model = Model(inputs=[resnet50v2.input,yinput], outputs=prediction)
29    
30    return model

次のコードを用いてoptunaを使用した学習を行います.

python
1# モデル定義
2def trainer(**param):  
3
4
5    lr = param['lr']
6    batch_size = param['batch_size']
7    s = param['s']
8    m = param['m']
9   
10   
11    model = create_arcface_with_resnet50v2(input_shape, s, m)
12    
13
14    # 自動的に学習をやめる
15    early_stopping =  EarlyStopping(monitor='val_loss',
16                                    min_delta=0.0,
17                                    patience=3,
18                                    mode='min'
19                                   )
20    # 最良の重みとモデルを保存
21    fpath = 'Weight/{}/{}_{}_{}_{}_({{epoch:02d}}-{{loss:.2f}}-{{accuracy:.2f}}-{{val_loss:.5f}}-{{val_accuracy:.2f}}).hdf5'.format(f_elem, batch_size, lr, s, m)
22    model_checkpoint = ModelCheckpoint(filepath=fpath, monitor='val_loss', save_best_only=True, mode='min')
23    # 学習中に学習率を調整
24    lr_scheduler = LearningRateScheduler(lr_schedul, verbose=1)
25
26
27    adam = Adam(learning_rate=lr)
28    model.compile(loss='categorical_crossentropy', optimizer=adam, metrics=['accuracy'])
29
30
31
32    try:
33
34        H = model.fit([x_train, y_train], y_train, # ここの[x_train, y_train]をx_trainにしたい
35                  epochs=epochs,
36                  verbose=1,
37                  steps_per_epoch = math.ceil(len(x_train)/batch_size),
38                  validation_data=([x_test, y_test], y_test),
39                  callbacks=[early_stopping, model_checkpoint, lr_scheduler])
40
41        part = f_elem.split('/')[1]
42        M_path = 'Model/{}/{}_{}_{}_{}_model_{}.h5'.format(f_elem, batch_size, lr, s, m, part)
43        model.save(M_path)
44
45        #テストデータで精度を確認
46        score = model.evaluate([x_test, y_test], y_test)
47
48        return score[0] # vall_lossが最小であるモデルを探すため
49
50    except Exception as e:
51        print(e)

なお使用しているデータのshapeは以下のようになっています.
x_train.shape → (1566, 110, 110, 1)
y_train.shape → (1566, 29) # one-hot

x_test.shape → (88, 110, 110, 1)
y_test.shape → (88, 29) # one-hot

input_shape → (110, 110, 1)

最後に

ResNet50v2 + ArcFaceのモデル定義時の25行目を次のように変更すると

python
1s_cos = Arcfacelayer(num_classes, s, m)(x)

Arcfacelayer定義中のcallメソッド(buildメソッドも？)に渡される引数の形状が変わってしまうため，それに伴いコードの書き換えを行う必要が出てくると思いますがどのように変更すればいいのか分かりません.

現状，参考にしたソースコードが上記のように2入力を必要とするものであったためこのようなモデルを構築したのですが，なにか2入力でないといけない理由があるのでしょうか.
もし，画像データのみの1入力のモデルに変更できるのであれば，どのようにソースコードを変更すればよいか教えていただきたいです.
自力で調べても分からなかったため，どうかお力をお貸しいただきたいです.

補足情報（FW/ツールのバージョンなど）

ubuntu　20.04
Python　3.8.10

tensorflow-gpu　2.5.3
keras　2.8.0
numpy　1.19.5

jupyter lab　2.3.2

行動規範の内容に同意します

回答1件

なにか2入力でないといけない理由

ArcFaceLayerを用いた学習時にラベルデータ(質問コードで言うyinput)が必要だからです．また，モデル運用時には不必要であることが原理からも明確です．

画像データのみの1入力のモデルに変更できるのであれば，どのようにソースコードを変更すればよいか

参考にされたQiitaの記事の関数create_predict_modelや参考にされたGitHubのコードのtest.pyの項目で，いずれもArcFaceLayerを除去し，単一画像入力で良くなるようなモデル変更(というより新たなモデル定義)を行っています．

したがって，これらを倣ってOptunaに返すべきscore[0]ことval_lossはArcFaceLayerが取り除かれたモデルで算出された値である方が正しい評価になると考えます．

投稿2023/01/12 17:25

編集2023/01/12 23:29

ps_aux_grep

総合スコア1581

harug

2023/01/13 06:00

ご回答いただき，ありがとうございます. > 返すべきscore[0]ことval_lossはArcFaceLayerが取り除かれたモデルで算出された値である方が正しい評価になると考えます．なぜその方が正しい評価になるのでしょうか. 私的には，ArcFaceLayerによって距離学習を行ったためArcFaceLayerなしのモデルで評価してしまうと距離学習で得られた情報が考慮されないのではないかと思うのですが...勉強不足のため教えていただきたいです. また，ArcFaceLayerを取り除いたものに出力層を追加し，そこから算出されるval_lossをOptunaに返し評価するという解釈でよろしいでしょうか?

ps_aux_grep

2023/01/13 07:55

ArcFaceLayerはあくまで距離学習を行うためのアタッチメントでしかなく，最適化された予測値を吐き出すのは質問コードで言うところのResNet50V2です．ArcFaceLayerの出力がMargin Penaltyのない予測であることは，原理からも明確です． > ArcFaceLayerを取り除いたものに出力層を追加し，そこから算出されるval_lossをOptunaに返し評価するという解釈出力層はもともと付いていますのでArcFaceLayerを取り除くだけで大丈夫です(これも原理からわかる話です)．ただ，いずれのコードもArcFaceLayerを取り除いた後に損失関数を与えていません．ので，val_lossを算出するには再度model.compile()やmodel.fit()を行うことになってしまいます．したがってval_lossを算出するのは面倒なので，Optunaに返すのは，他のAccuracy等のMetricsが良いと思います．これに関しては言い方が少し悪かったかもしれません．ArcFaceLayerなしで評価できる値を渡しましょう．

harug

2023/01/15 05:23

ArcFaceLayerありで学習させた後，そこで得られた重みをloadさせたうえで出力層を含むArcFaceLayer以降の全ての層を削除し，新たに出力層を追加するということを行いました. しかし，それでは予測結果が全て0に近い数値として出力されてしまっていたため，元の学習済みの重みを保持したまま出力層を追加する方法があれば教えていただきたいです. また，Oputunaに返す値は，model.evaluate()ではなくmodel.prredict()なりを使用し，正解率を求めればよいという解釈でよろしいでしょうか.

ps_aux_grep

2023/01/15 09:02

> 出力層を含むArcFaceLayer以降の全ての層を削除し，新たに出力層を追加する新たに出力層を追加しまっては再学習の必要がありますしArcFaceLayerを使った意味がなくなります．いずれの参考サイトも，新たな出力層を追加してないことがわかるはずです． > Oputunaに返す値は，model.evaluate()ではなくmodel.predict() model.evaluate()でもmode.predict()でも良いと思います．正解率を最適化したいなら正解率を返すべきですし，F1 score等他のMetricsを最適化したいならそれを返すべきでしょう．

harug

2023/01/15 12:05

参考サイトによると，ArcFaceLayer以降の全ての層を削除したものをpredict用のモデルとしていたため，私のソースコードでそれを行うとpredict用のモデルの最終出力は dense = Dense(512, activation="relu", name="hidden")(flat) の出力となってしまいます. 512次元ベクトルを出力するモデルでは，どのように正解率を出せばよいのでしょうか.

ps_aux_grep

2023/01/15 16:22

GitHub実装の方を見ると Dense(512, kernel_initializer='he_normal') を通した後が出力になっているようですし，合わせるとしたら活性化関数をlinearにするだけで良いのではないでしょうか．少なくとも，それで作成されたmodelインスタンスからmodel.predict()やmodel.evaluate()ができるはずです．

harug

2023/01/16 16:08 編集

dense = Dense(512, activation="relu", name="hidden")(flat) を dense = Dense(512, activation="linear", name="hidden")(flat) に変更し， model = Model(inputs=<元のmodel>.input, outputs=<元のmodel>.get_layer(index=-5).output) として再作成したモデルでmodel.predict()やmodel.evaluate()ができるという解釈でよろしいでしょうか. <追記> 上記の方法でモデルを再作成し，model.predict(x_test)を実行すると問題なく512次元ベクトルが出力されましたが，model.evaluate(x_test, y_test)を実行すると想定通り RuntimeError: You must compile your model before training/testing. Use model.compile(optimizer, loss). が発生しました. 上記でps_aux_grepさんがおっしゃっているOptunaにAccuracyを返す場合は tf.keras.metrics.categorical_accuracy(y_true, y_pred) を使用して求めてあげればよいのでしょうか.

harug

2023/01/16 05:21

また，推論時に最終的なsoftmaxの値を取得したい場合は，上記の512次元ベクトルを出力するモデルではその値を取得することは可能なのでしょうか.

行動規範の内容に同意します