メルカリのCNN後の次元削減手法について

メルカリでこんな記事がありました

inceptionV3の中間層から取り出した特徴デカすぎない？リアルタイムで計算できるの？
特徴はPCAで次元潰して計算コスト下げてる

メルカリにおける AI 活用事例 PyCon JP 2018

これに書いてあるのはinceptionv3の中間層から取り出した特徴ベクトルを、PCAで次元削減しているようです。
自分も試しにやって見たのですが、上手く行きません？

kerasのmodelに次元削減は無理なのでしょうか？

この中間層のベクトルを次元削減する手法はどのようにやるのかについて、何か参考になること、推論、資料なんでもいい良いので、知恵を貸していただけないでしょうか？

＝＞実験

python
1
2# tfrecordの場合
3train_image, train_labels=distorted_input(filenames, batch_size=256, train=True)
4train_image
5>>><tf.Tensor 'Sub_1:0' shape=(256, 150, 150, 3) dtype=float32>
6model= InceptionV3(include_top=False, weights=None, input_tensor=train_image, pooling='avg', classes=200)
7model
8>>> <keras.engine.training.Model at 0x1a325c4eb8>
9
10
11# shape指定の場合
12model= InceptionV3(include_top=False, weights=None, input_shape=(150,150,3), pooling='avg', classes=200)
13model
14>>> <keras.engine.training.Model at 0x1a38b6a208>
15
16# 次元削減
17pca = PCA(n_components=500)
18pca.fit(model)
19
20plt.plot(np.cumsum(pca.explained_variance_ratio_))
21
22# エラー
23TypeError                                 Traceback (most recent call last)
24<ipython-input-11-ceb44ec0ea8f> in <module>()
25      1 
26      2 pca = PCA(n_components=500)
27----> 3 pca.fit(model)
28      4 
29      5 plt.plot(np.cumsum(pca.explained_variance_ratio_))
30
31/anaconda3/lib/python3.6/site-packages/sklearn/decomposition/pca.py in fit(self, X, y)
32    327             Returns the instance itself.
33    328         """
34--> 329         self._fit(X)
35    330         return self
36    331 
37
38/anaconda3/lib/python3.6/site-packages/sklearn/decomposition/pca.py in _fit(self, X)
39    368 
40    369         X = check_array(X, dtype=[np.float64, np.float32], ensure_2d=True,
41--> 370                         copy=self.copy)
42    371 
43    372         # Handle n_components==None
44
45/anaconda3/lib/python3.6/site-packages/sklearn/utils/validation.py in check_array(array, accept_sparse, dtype, order, copy, force_all_finite, ensure_2d, allow_nd, ensure_min_samples, ensure_min_features, warn_on_dtype, estimator)
46    431                                       force_all_finite)
47    432     else:
48--> 433         array = np.array(array, dtype=dtype, order=order, copy=copy)
49    434 
50    435         if ensure_2d:
51
52TypeError: float() argument must be a string or a number, not 'Model'

行動規範の内容に同意します

回答1件

ベストアンサー

中間層の特徴抽出は Keras でもできます。

ステップ1 中間層の特徴量を取り出す。

このスライドにかかれている中間層を抽出する方法を記載します。

ImageNet 学習済みの InceptionV3 モデルを構築して、取り出す中間層を確認します。

python
1from keras.applications.inception_v3 import InceptionV3, preprocess_input
2from keras.layers import GlobalMaxPooling2D, Input
3from keras.models import Model
4
5base_model = InceptionV3(include_top=False, weights='imagenet',
6                         input_tensor=Input((299, 299, 3)))
7
8# モデル構造を可視化する。
9from keras.utils import plot_model
10plot_model(base_model, to_file='model.png',
11           show_shapes=True, show_layer_names=True)

mixed7 (None, 17, 17, 768) という中間層がスライドに記載がある場所と思われるます。
ここの出力に Global Average Pooling を追加した新しいモデルを作成します。

python
1# 以下の層を取り出す。
2# mixed7  (None, 17, 17, 768) 
3feature = base_model.get_layer('mixed7')
4print(type(feature))  # <class 'keras.layers.merge.Concatenate'>
5print(feature.name, feature.output_shape)  # mixed7 (None, 17, 17, 768)
6
7# Global Average Polling 層を追加する。
8output = GlobalMaxPooling2D()(feature.output)
9
10# モデル作成
11model = Model(inputs=base_model.input, outputs=output)
12print(model.output_shape)  # (None, 768)

ステップ2 データセットの特徴量を取り出す。

質問者さんが学習したいデータセットの画像を全部ネットワークに流し、特徴量に変換します。画像の枚数が N 枚だとしたら、これで (N, 768) のデータが得られます。

以下の例は1枚の特徴マップを取り出す例です。

python
1import numpy as np
2from PIL import Image
3
4input_h, input_w = model.input_shape[1:3]
5img = Image.open('dog.jpg')  # RGB 形式で読み込むこと
6img = img.resize((input_h, input_w))  # モデルの入力サイズに合わせてリサイズする。
7
8x = np.array(img)  # PIL -> numpy
9x = preprocess_input(x)  # [0, 255] -> [-1, 1] Inception 用の前処理
10print(x.shape)  # (299, 299, 3)
11
12# 今回は1枚だけ試しに流した。実際は複数枚でミニバッチを作る。
13batch = np.expand_dims(x, axis=0)  # (229, 229, 3) -> (1, 229, 229, 3)
14features = model.predict(batch)
15print(features.shape)  # (1, 768)

ステップ3 主成分分析を行う。

(N, 768) のデータに対して、主成分分析を行います。
n_components は寄与度を見ながら、パラメータチューニングしてください。

# 主成分分析を行う。
from sklearn.decomposition import PCA
pca = PCA(n_components=100)
pca.fit(features)

# 主成分分析の結果に基づき、次元削減する。
data = fit_transform(features)

ステップ4 学習する。

以上の過程で (N, n_components) のデータ及び (N,) のラベルができたと思うので、ニューラルネットワークでも SVM でも適当なモデル使って学習してください。

ステップ5 推論する。

学習するときと同じ流れで以下のことをすればよいです。

画像から特徴量抽出
PCA で次元削減
学習したモデルに流す。

追加の質問について

1. 学習済みのモデルなければいけない

今回のメルカリの記事はディープラーニングで End-to-End で分類モデルを学習するという話でなく、学習済みのモデルを使って特徴量を抽出して、次元圧縮して、分類に利用するって話ですよね。
だから、学習済みモデルを使っています。

学習済みモデルを使うメリットについては過去の質問を参考にしてください。

2. tfrecordの場合は次元削減できないので、numpyの画像を使うしかない
の2つは絶対条件なのでしょうか？

tfrecord にこだわる理由はなにかあるのでしょうか？
tfrecord は Tensorflow でデータセットを扱う際に protocol buffer 形式で画像やラベルなど必要なデータをまとめたファイルフォーマットです。なので、元の画像があれば、わざわざ tf-recoard 形式にしなくてもそれを numpy として読み込んめばいいかと思います。
もちろん、protocol buffer は複数のデータを構造体のように固めただけなのでそこからデータ取り出すこともできます。

ちなみに sklearn の PCA で次元削減することと Deep Learning ライブラリで画像の特徴を抽出することは直接は関係ないので、そこは切り分けて考えてください。

投稿2018/09/22 04:51

編集2018/09/22 08:57

tiitoi

総合スコア21960

trafalbad

2018/09/22 05:26

ありがとうございます! 質問なのですが、 1. 学習済みのモデルなければいけない 2. tfrecordの場合は次元削減できないので、numpyの画像を使うしかないの2つは絶対条件なのでしょうか？この2点は学習済みでなくても良い or tfrecordの次元削減は可能というケースはあるのでしょうか？