CNNで画像とその画像の特徴量を合わせて学習させたい

Question

### 前提

現在、低解像度化された数字の識別を、以下のようなCNNのモデルで行っています。
このモデルに入力された画像からCNNによって抽出された特徴量に、以下の画像のように外部から追加された特徴量とを合わせて学習させたい場合どのようにすればよいでしょうか
今のところ以下の画像から、CNNから得られた特徴量と追加の特徴量を結合して全結合層に流せばいい、というところまでは理解できたのですが具体的な方法を教えていただきたいです。

![イメージ説明](https://ddjkaamml8q8x.cloudfront.net/questions/2022-11-09/60db2986-1734-4f78-9ad6-878184f47499.png)

### 該当のソースコード

```python
network = models.Sequential()

network.add(layers.Conv2D(filters=16, kernel_size=(3,3), strides=(1,1), padding='same', activation='elu', data_format="channels_last", input_shape=(256, 128, 1)))
network.add(layers.MaxPooling2D(pool_size=(2,2), strides=None, padding='same'))
network.add(layers.Conv2D(filters=16, kernel_size=(3,3), strides=(1,1), padding='same', activation='elu'))
network.add(layers.MaxPooling2D(pool_size=(2,2), strides=None, padding='same'))
network.add(layers.Conv2D(filters=16, kernel_size=(3,3), strides=(1,1), padding='same', activation='elu'))
network.add(layers.MaxPooling2D(pool_size=(2,2), strides=None, padding='same'))
network.add(layers.Conv2D(filters=16, kernel_size=(3,3), strides=(1,1), padding='same', activation='elu'))
network.add(layers.MaxPooling2D(pool_size=(2,2), strides=None, padding='same'))
network.add(layers.Conv2D(filters=16, kernel_size=(3,3), strides=(1,1), padding='same', activation='elu'))
network.add(layers.MaxPooling2D(pool_size=(2,2), strides=None, padding='same'))

network.add(layers.Flatten())
network.add(layers.Dropout(0.5))
network.add(layers.Dense(128, activation='elu'))
network.add(layers.Dense(10, activation='softmax'))

network.compile(optimizer='rmsprop', loss='categorical_crossentropy', metrics=['accuracy'])

network.summary()  
```

Accepted Answer

Functional APIモデルを利用して実現できます．
```Python
import tensorflow as tf
from tensorflow.python import keras
from keras.models import Model
from keras.layers import Conv2D, Input, Flatten, Dense, MaxPool2D, Dropout, concatenate
from keras.optimizers import Adam
import numpy as np

image_input = Input(shape = (256, 128, 1), name = "image_input")
append_input = Input(shape = (2,), name = "feature_input") # 追加情報の特徴量の数だけ次元数を指定する

params = { # 同一のパラメータは まとめて書いておく
   "kernel_size": (3, 3),
   "strides": (1, 1),
   "padding": "same",
   "activation": "swish", # 連続関数を利用する
   "kernel_initializer": "he_normal" # ReLUファミリ用の活性化関数を利用する
}

x = Conv2D(filters=32, **params)(image_input)
x = MaxPool2D(pool_size=(2,2), strides=None, padding='same')(x)
x = Conv2D(filters=23, **params)(x)
x = MaxPool2D(pool_size=(2,2), strides=None, padding='same')(x)
x = Conv2D(filters=16, **params)(x)
x = MaxPool2D(pool_size=(2,2), strides=None, padding='same')(x)
x = Conv2D(filters=11, **params)(x)
x = MaxPool2D(pool_size=(2,2), strides=None, padding='same')(x)
x = Conv2D(filters=8, **params)(x)
x = MaxPool2D(pool_size=(2,2), strides=None, padding='same')(x)

x = Flatten()(x)
x = concatenate([x, append_input])
x = Dropout(0.5)(x)
x = Dense(128, activation='swish', kernel_initializer = 'he_uniform')(x)
x = Dense(10, activation='softmax')(x)

network = Model(inputs = [image_input, append_input], outputs = x)

network.compile(
    optimizer = 'adam',
    loss = 'categorical_crossentropy',
    metrics=['accuracy']
)

network.summary() 
from keras.utils.vis_utils import plot_model
plot_model(network, to_file =  "CNN.png", rankdir = "LR", show_shapes = True, show_layer_names = True, show_layer_activations = True)

# 擬似データを用意
# 擬似画像 32枚解像度256x128のグレースケール画像
train_img = np.random.randn(32, 256, 128, 1)
# train_feautre = np.array([ [x0, y0], [x1, y1], [x2, y2], ..., [xn, yn] ]) となるように与える
train_feature = np.random.randn(32, 2)
# モデルに出力してほしい値．One-Hot Encoding済であること．
train_y = np.abs(np.random.randn(32, 10))

batch_size = 32
epochs = 10

network.fit(
      x = { # keyはレイヤの名前と一致させる
         "image_input": train_img,
         "feature_input": train_feature
      },
      y = train_y,
      batch_size = batch_size,
      epochs = epochs
)
```
基本，分類問題を解かせる場合はTrainable paramsやユニット数を出力側に行くにつれ減少させるのが常套手段です．カーネルの枚数を徐々に減少させるようにしておきました．また，活性化関数もELUを上回った[Swish](https://arxiv.org/pdf/1710.05941v1.pdf)を推奨しておきます．さらに，カーネルの初期値は`glorot_uniform`なので，ELUやSwishのような[ReLUファミリ用の`he_uniform`](https://arxiv.org/pdf/1502.01852.pdf)を推奨します．
```Python:network.summary()
Model: "model"
__________________________________________________________________________________________________
 Layer (type)                   Output Shape         Param #     Connected to                     
==================================================================================================
 image_input (InputLayer)       [(None, 256, 128, 1  0           []                               
                                )]                                                                
                                                                                                  
 conv2d (Conv2D)                (None, 256, 128, 32  320         ['image_input[0][0]']            
                                )                                                                 
                                                                                                  
 max_pooling2d (MaxPooling2D)   (None, 128, 64, 32)  0           ['conv2d[0][0]']                 
                                                                                                  
 conv2d_1 (Conv2D)              (None, 128, 64, 23)  6647        ['max_pooling2d[0][0]']          
                                                                                                  
 max_pooling2d_1 (MaxPooling2D)  (None, 64, 32, 23)  0           ['conv2d_1[0][0]']               
                                                                                                  
 conv2d_2 (Conv2D)              (None, 64, 32, 16)   3328        ['max_pooling2d_1[0][0]']        
                                                                                                  
 max_pooling2d_2 (MaxPooling2D)  (None, 32, 16, 16)  0           ['conv2d_2[0][0]']               
                                                                                                  
 conv2d_3 (Conv2D)              (None, 32, 16, 11)   1595        ['max_pooling2d_2[0][0]']        
                                                                                                  
 max_pooling2d_3 (MaxPooling2D)  (None, 16, 8, 11)   0           ['conv2d_3[0][0]']               
                                                                                                  
 conv2d_4 (Conv2D)              (None, 16, 8, 8)     800         ['max_pooling2d_3[0][0]']        
                                                                                                  
 max_pooling2d_4 (MaxPooling2D)  (None, 8, 4, 8)     0           ['conv2d_4[0][0]']               
                                                                                                  
 flatten (Flatten)              (None, 256)          0           ['max_pooling2d_4[0][0]']        
                                                                                                  
 feature_input (InputLayer)     [(None, 2)]          0           []                               
                                                                                                  
 concatenate (Concatenate)      (None, 258)          0           ['flatten[0][0]',                
                                                                  'feature_input[0][0]']          
                                                                                                  
 dropout (Dropout)              (None, 258)          0           ['concatenate[0][0]']            
                                                                                                  
 dense (Dense)                  (None, 128)          33152       ['dropout[0][0]']                
                                                                                                  
 dense_1 (Dense)                (None, 10)           1290        ['dense[0][0]']                  
                                                                                                  
==================================================================================================
Total params: 47,132
Trainable params: 47,132
Non-trainable params: 0
__________________________________________________________________________________________________
```
![イメージ説明](https://ddjkaamml8q8x.cloudfront.net/questions/2022-11-13/1fdeeee2-3667-458c-886e-c375e85a646f.png)

個人的には，CNNだけを分類予測学習した後，CNNを学習しないようにして特徴量マップ出力と追加情報を合併して予測/分類する方が良いと思います．

前提

該当のソースコード

関連した質問