トップ CNN (Convolutional Neural Network)に関する質問 CNNで画像とその画像の特徴量を合わせて学習させたい

編集履歴

回答編集履歴

fix answer

2022/11/12 17:43

投稿

ps_aux_grep

スコア1581

answer CHANGED Viewed

@@ -68,7 +68,7 @@
       epochs = epochs
 )
 ```
-基本，分類問題を解かせる場合はTrainable paramsは出力側に行くにつれ減少させるのが常套手段です．カーネルの枚数を徐々に減少させるようにしておきました．また，活性化関数もELUを上回った[Swish](https://arxiv.org/pdf/1710.05941v1.pdf)を推奨しておきます．さらに，カーネルの初期値は`glorot_uniform`なので，ELUやSwishのような[ReLUファミリ用の`he_uniform`](https://arxiv.org/pdf/1502.01852.pdf)を推奨します．
+基本，分類問題を解かせる場合はTrainable paramsやユニット数を出力側に行くにつれ減少させるのが常套手段です．カーネルの枚数を徐々に減少させるようにしておきました．また，活性化関数もELUを上回った[Swish](https://arxiv.org/pdf/1710.05941v1.pdf)を推奨しておきます．さらに，カーネルの初期値は`glorot_uniform`なので，ELUやSwishのような[ReLUファミリ用の`he_uniform`](https://arxiv.org/pdf/1502.01852.pdf)を推奨します．
 ```Python:network.summary()
 Model: "model"
 __________________________________________________________________________________________________

fix result on feature shape (2,)

2022/11/12 17:39

投稿

ps_aux_grep

スコア1581

answer CHANGED Viewed

@@ -100,22 +100,23 @@
  flatten (Flatten)              (None, 256)          0           ['max_pooling2d_4[0][0]']
- feature_input (InputLayer)     [(None, 5)]          0           []
+ feature_input (InputLayer)     [(None, 2)]          0           []
- concatenate (Concatenate)      (None, 261)          0           ['flatten[0][0]',
+ concatenate (Concatenate)      (None, 258)          0           ['flatten[0][0]',
                                                                   'feature_input[0][0]']
- dropout (Dropout)              (None, 261)          0           ['concatenate[0][0]']
+ dropout (Dropout)              (None, 258)          0           ['concatenate[0][0]']
- dense (Dense)                  (None, 128)          33536       ['dropout[0][0]']
+ dense (Dense)                  (None, 128)          33152       ['dropout[0][0]']
  dense_1 (Dense)                (None, 10)           1290        ['dense[0][0]']
 ==================================================================================================
-Total params: 47,516
+Total params: 47,132
-Trainable params: 47,516
+Trainable params: 47,132
 Non-trainable params: 0
+__________________________________________________________________________________________________
 ```
-![イメージ説明](https://ddjkaamml8q8x.cloudfront.net/questions/2022-11-10/48e7b963-9b7d-4cab-88f6-8a85afa1052b.png)
+![イメージ説明](https://ddjkaamml8q8x.cloudfront.net/questions/2022-11-13/1fdeeee2-3667-458c-886e-c375e85a646f.png)
 個人的には，CNNだけを分類予測学習した後，CNNを学習しないようにして特徴量マップ出力と追加情報を合併して予測/分類する方が良いと思います．

append network summary

2022/11/12 17:37

投稿

ps_aux_grep

スコア1581

answer CHANGED Viewed

@@ -69,6 +69,53 @@
 )
 ```
 基本，分類問題を解かせる場合はTrainable paramsは出力側に行くにつれ減少させるのが常套手段です．カーネルの枚数を徐々に減少させるようにしておきました．また，活性化関数もELUを上回った[Swish](https://arxiv.org/pdf/1710.05941v1.pdf)を推奨しておきます．さらに，カーネルの初期値は`glorot_uniform`なので，ELUやSwishのような[ReLUファミリ用の`he_uniform`](https://arxiv.org/pdf/1502.01852.pdf)を推奨します．
+```Python:network.summary()
+Model: "model"
+__________________________________________________________________________________________________
+ Layer (type)                   Output Shape         Param #     Connected to
+==================================================================================================
+ image_input (InputLayer)       [(None, 256, 128, 1  0           []
+                                )]
+ conv2d (Conv2D)                (None, 256, 128, 32  320         ['image_input[0][0]']
+                                )
+ max_pooling2d (MaxPooling2D)   (None, 128, 64, 32)  0           ['conv2d[0][0]']
+ conv2d_1 (Conv2D)              (None, 128, 64, 23)  6647        ['max_pooling2d[0][0]']
+ max_pooling2d_1 (MaxPooling2D)  (None, 64, 32, 23)  0           ['conv2d_1[0][0]']
+ conv2d_2 (Conv2D)              (None, 64, 32, 16)   3328        ['max_pooling2d_1[0][0]']
+ max_pooling2d_2 (MaxPooling2D)  (None, 32, 16, 16)  0           ['conv2d_2[0][0]']
+ conv2d_3 (Conv2D)              (None, 32, 16, 11)   1595        ['max_pooling2d_2[0][0]']
+ max_pooling2d_3 (MaxPooling2D)  (None, 16, 8, 11)   0           ['conv2d_3[0][0]']
+ conv2d_4 (Conv2D)              (None, 16, 8, 8)     800         ['max_pooling2d_3[0][0]']
+ max_pooling2d_4 (MaxPooling2D)  (None, 8, 4, 8)     0           ['conv2d_4[0][0]']
+ flatten (Flatten)              (None, 256)          0           ['max_pooling2d_4[0][0]']
+ feature_input (InputLayer)     [(None, 5)]          0           []
+ concatenate (Concatenate)      (None, 261)          0           ['flatten[0][0]',
+                                                                  'feature_input[0][0]']
+ dropout (Dropout)              (None, 261)          0           ['concatenate[0][0]']
+ dense (Dense)                  (None, 128)          33536       ['dropout[0][0]']
+ dense_1 (Dense)                (None, 10)           1290        ['dense[0][0]']
+==================================================================================================
+Total params: 47,516
+Trainable params: 47,516
+Non-trainable params: 0
+```
 ![イメージ説明](https://ddjkaamml8q8x.cloudfront.net/questions/2022-11-10/48e7b963-9b7d-4cab-88f6-8a85afa1052b.png)
 個人的には，CNNだけを分類予測学習した後，CNNを学習しないようにして特徴量マップ出力と追加情報を合併して予測/分類する方が良いと思います．

append code comments

2022/11/12 17:33

投稿

ps_aux_grep

スコア1581

answer CHANGED Viewed

@@ -8,9 +8,9 @@
 import numpy as np
 image_input = Input(shape = (256, 128, 1), name = "image_input")
-append_input = Input(shape = (2,), name = "feature_input") # 追加情報の特徴量の数だけ
+append_input = Input(shape = (2,), name = "feature_input") # 追加情報の特徴量の数だけ次元数を指定する
-params = { # 同一のパラメータはまとめて書いておく
+params = { # 同一のパラメータは まとめて書いておく
    "kernel_size": (3, 3),
    "strides": (1, 1),
    "padding": "same",
@@ -37,21 +37,29 @@
 network = Model(inputs = [image_input, append_input], outputs = x)
+network.compile(
+    optimizer = 'adam',
-network.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])
+    loss = 'categorical_crossentropy',
+    metrics=['accuracy']
+)
 network.summary()
 from keras.utils.vis_utils import plot_model
 plot_model(network, to_file =  "CNN.png", rankdir = "LR", show_shapes = True, show_layer_names = True, show_layer_activations = True)
+# 擬似データを用意
+# 擬似画像 32枚解像度256x128のグレースケール画像
 train_img = np.random.randn(32, 256, 128, 1)
-# 擬似的に train_feautre = np.array([ [x0, y0], [x1, y1], [x2, y2], ..., [xn, yn] ])
+# train_feautre = np.array([ [x0, y0], [x1, y1], [x2, y2], ..., [xn, yn] ]) となるように与える
 train_feature = np.random.randn(32, 2)
+# モデルに出力してほしい値．One-Hot Encoding済であること．
 train_y = np.abs(np.random.randn(32, 10))
 batch_size = 32
 epochs = 10
 network.fit(
-      x = { # レイヤの名前と一致させる
+      x = { # keyはレイヤの名前と一致させる
          "image_input": train_img,
          "feature_input": train_feature
       },

fix answer

2022/11/12 16:54

投稿

ps_aux_grep

スコア1581

answer CHANGED Viewed

@@ -8,7 +8,7 @@
 import numpy as np
 image_input = Input(shape = (256, 128, 1), name = "image_input")
-append_input = Input(shape = (5), name = "feature_input") # 追加情報の特徴量の数だけ
+append_input = Input(shape = (2,), name = "feature_input") # 追加情報の特徴量の数だけ
 params = { # 同一のパラメータはまとめて書いておく
    "kernel_size": (3, 3),
@@ -44,7 +44,8 @@
 plot_model(network, to_file =  "CNN.png", rankdir = "LR", show_shapes = True, show_layer_names = True, show_layer_activations = True)
 train_img = np.random.randn(32, 256, 128, 1)
+# 擬似的に train_feautre = np.array([ [x0, y0], [x1, y1], [x2, y2], ..., [xn, yn] ])
-train_feature = np.random.randn(32, 5, 1)
+train_feature = np.random.randn(32, 2)
 train_y = np.abs(np.random.randn(32, 10))
 batch_size = 32
 epochs = 10

fix answer

2022/11/10 02:04

投稿

ps_aux_grep

スコア1581

answer CHANGED Viewed

@@ -59,7 +59,7 @@
       epochs = epochs
 )
 ```
-基本，分類問題を解かせる場合はTrainable paramsは出力側に行くにつれ減少させるのがセオリーです．カーネルフィルタの枚数を徐々に減少させるようにしておきました．また，活性化関数もELUを上回ったSwishを推奨しておきます．さらに，カーネルフィルタの初期値は`glorot_uniform`なので，ELUやSwishのようなReLUファミリ用の`he_uniform`を推奨します．
+基本，分類問題を解かせる場合はTrainable paramsは出力側に行くにつれ減少させるのが常套手段です．カーネルの枚数を徐々に減少させるようにしておきました．また，活性化関数もELUを上回った[Swish](https://arxiv.org/pdf/1710.05941v1.pdf)を推奨しておきます．さらに，カーネルの初期値は`glorot_uniform`なので，ELUやSwishのような[ReLUファミリ用の`he_uniform`](https://arxiv.org/pdf/1502.01852.pdf)を推奨します．
 ![イメージ説明](https://ddjkaamml8q8x.cloudfront.net/questions/2022-11-10/48e7b963-9b7d-4cab-88f6-8a85afa1052b.png)
 個人的には，CNNだけを分類予測学習した後，CNNを学習しないようにして特徴量マップ出力と追加情報を合併して予測/分類する方が良いと思います．

fix code

2022/11/09 16:55

投稿

ps_aux_grep

スコア1581

answer CHANGED Viewed

@@ -10,26 +10,34 @@
 image_input = Input(shape = (256, 128, 1), name = "image_input")
 append_input = Input(shape = (5), name = "feature_input") # 追加情報の特徴量の数だけ
+params = { # 同一のパラメータはまとめて書いておく
+   "kernel_size": (3, 3),
+   "strides": (1, 1),
+   "padding": "same",
+   "activation": "swish", # 連続関数を利用する
-x = Conv2D(filters=16, kernel_size=(3,3), strides=(1,1), padding='same', activation='elu', data_format="channels_last")(image_input)
+   "kernel_initializer": "he_normal" # ReLUファミリ用の活性化関数を利用する
+}
+x = Conv2D(filters=32, **params)(image_input)
 x = MaxPool2D(pool_size=(2,2), strides=None, padding='same')(x)
-x = Conv2D(filters=16, kernel_size=(3,3), strides=(1,1), padding='same', activation='elu')(x)
+x = Conv2D(filters=23, **params)(x)
 x = MaxPool2D(pool_size=(2,2), strides=None, padding='same')(x)
-x = Conv2D(filters=16, kernel_size=(3,3), strides=(1,1), padding='same', activation='elu')(x)
+x = Conv2D(filters=16, **params)(x)
 x = MaxPool2D(pool_size=(2,2), strides=None, padding='same')(x)
-x = Conv2D(filters=16, kernel_size=(3,3), strides=(1,1), padding='same', activation='elu')(x)
+x = Conv2D(filters=11, **params)(x)
 x = MaxPool2D(pool_size=(2,2), strides=None, padding='same')(x)
-x = Conv2D(filters=16, kernel_size=(3,3), strides=(1,1), padding='same', activation='elu')(x)
+x = Conv2D(filters=8, **params)(x)
 x = MaxPool2D(pool_size=(2,2), strides=None, padding='same')(x)
 x = Flatten()(x)
 x = concatenate([x, append_input])
 x = Dropout(0.5)(x)
-x = Dense(128, activation='elu')(x)
+x = Dense(128, activation='swish', kernel_initializer = 'he_uniform')(x)
 x = Dense(10, activation='softmax')(x)
 network = Model(inputs = [image_input, append_input], outputs = x)
-network.compile(optimizer='rmsprop', loss='categorical_crossentropy', metrics=['accuracy'])
+network.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])
 network.summary()
 from keras.utils.vis_utils import plot_model
@@ -37,17 +45,21 @@
 train_img = np.random.randn(32, 256, 128, 1)
 train_feature = np.random.randn(32, 5, 1)
-train_y = np.random.randn(32, 10)
+train_y = np.abs(np.random.randn(32, 10))
 batch_size = 32
 epochs = 10
 network.fit(
+      x = { # レイヤの名前と一致させる
+         "image_input": train_img,
-      x = {"image_input": train_img, "feature_input": train_feature},
+         "feature_input": train_feature
+      },
       y = train_y,
       batch_size = batch_size,
       epochs = epochs
 )
 ```
+基本，分類問題を解かせる場合はTrainable paramsは出力側に行くにつれ減少させるのがセオリーです．カーネルフィルタの枚数を徐々に減少させるようにしておきました．また，活性化関数もELUを上回ったSwishを推奨しておきます．さらに，カーネルフィルタの初期値は`glorot_uniform`なので，ELUやSwishのようなReLUファミリ用の`he_uniform`を推奨します．
-![イメージ説明](https://ddjkaamml8q8x.cloudfront.net/questions/2022-11-09/4162fa86-b336-4fb0-9eb7-5528d2d439ee.png)
+![イメージ説明](https://ddjkaamml8q8x.cloudfront.net/questions/2022-11-10/48e7b963-9b7d-4cab-88f6-8a85afa1052b.png)
 個人的には，CNNだけを分類予測学習した後，CNNを学習しないようにして特徴量マップ出力と追加情報を合併して予測/分類する方が良いと思います．

fix code

2022/11/09 14:22

投稿

ps_aux_grep

スコア1581

answer CHANGED Viewed

@@ -5,6 +5,7 @@
 from keras.models import Model
 from keras.layers import Conv2D, Input, Flatten, Dense, MaxPool2D, Dropout, concatenate
 from keras.optimizers import Adam
+import numpy as np
 image_input = Input(shape = (256, 128, 1), name = "image_input")
 append_input = Input(shape = (5), name = "feature_input") # 追加情報の特徴量の数だけ
@@ -32,11 +33,17 @@
 network.summary()
 from keras.utils.vis_utils import plot_model
-plot_model(network, to_file =  "CNN.png", show_shapes = True, show_layer_names = True, show_layer_activations = True)
+plot_model(network, to_file =  "CNN.png", rankdir = "LR", show_shapes = True, show_layer_names = True, show_layer_activations = True)
+train_img = np.random.randn(32, 256, 128, 1)
+train_feature = np.random.randn(32, 5, 1)
+train_y = np.random.randn(32, 10)
+batch_size = 32
+epochs = 10
 network.fit(
-      x = [train_img, train_feautre],
+      x = {"image_input": train_img, "feature_input": train_feature},
-      y = trian_y,
+      y = train_y,
       batch_size = batch_size,
       epochs = epochs
 )