回答率: 85.29%

質問するログイン新規登録

トップ Kerasに関する質問EfficientNetやVitの画像分類の際に画像以外の説明変数を扱えるのか？

意見交換

クローズ

7回答

1429閲覧

EfficientNetやVitの画像分類の際に画像以外の説明変数を扱えるのか？

総合スコア6

0グッド

0クリップ

投稿2023/05/08 13:37

0

0

画像分類の際に画像以外の説明変数を扱えるのか？

EfficientNetやViTを使って画像分類できるのは承知しており，実際に使っていますが，このモデルに画像とは直接には関係ない説明変数を追加できるものでしょうか．

例えば，その時の天気や撮影条件などを説明変数として追加して分類してみたいです．

今何となく考えている方法

最後の出力層に説明変数を無理やり追加する

正規化はどうするのか
変数の数が違う過ぎるのではないか
そもそも，そのやり方どうなの

もっともよい回答

論文に記載されている方法

よろしくお願いいたします．

回答7件

#1

総合スコア1581

投稿2023/05/08 14:47

編集2023/05/08 14:56

過去の質問でもそれを実装している人を見かけています．

正規化はどうするのか
[-1, 1]の範囲に正規化もしくは分散1, 平均0に標準化すると良いでしょう．

変数の数が違う過ぎるのではないか
いくつの変数を利用しようとしているのでしょうか？
最終的に得られた特徴量はほぼ同じ次元まで落とし込めるはずです．

そもそも，そのやり方どうなの
抽出した各特徴量を結合して分類するのは一般的です．
論文ではありませんが
Medium - Integrating image and tabular data for deep learning
を紹介しておきます．Kaggleコンペで画像+他説明変数で予測した精度が高いから最早ライブラリ作っちゃったよという話です．

#2

総合スコア7658

投稿2023/05/08 22:18

マルチモーダル機械学習

とかでググってみてください

#3

総合スコア6

投稿2023/05/08 22:52

回答いただきありがとうございます．

ps_aux_grep さん
動画とその他の変数をConcatしてもいいという情報ありがとうございます．
Libraryをご提示いただいたので，さっそく実行してみようと思います．

jbpb0 さん
マルチモーダル学習というものを存じ上げなかったのですが，調べてみるとPytorchにデモっぽい実装があるようなので，確認してみます．（まだGithubがあることしか確認していません）

#4

総合スコア7658

投稿2023/05/08 23:17

最後の出力層に説明変数を無理やり追加する

参考
ニューラルネットワークを用いた複数モーダルの統合について

#5

総合スコア6

投稿2023/05/09 11:42

回答いただきありがとうございます．
ConcatとFusionの違いがよくわかりませんが，
提示いただいたリンクからintermediate fusionを実装してみたので，今後実行してみます．

#6

総合スコア7658

投稿2023/05/09 13:13

編集2023/05/09 13:25

ConcatとFusionの違いがよくわかりません

参考
マルチモーダルモデルによる不正出品の検知の「2. 商品画像を用いたマルチモーダルモデル」の「特徴量合成について」
Multimodal Information Fusion for Prohibited Items Detection の「Preliminaries」

#7

総合スコア6

投稿2023/05/09 22:43

編集2023/05/09 22:46

さらなる回答ありがとうございます．ConcatとFusionの違いが多分理解できました．
ただ，今回は画像の出力次元（1792次元）と追加の説明変数の次元（12次元）が違いすぎるのでMax-poolingを使用することができるのか分からないので，よく文献を調べようと思います．

最新の回答から1ヶ月経過したためこの意見交換はクローズされました

意見をやりとりしたい話題がある場合は質問してみましょう！

関連した質問

トップ Kerasに関する質問

EfficientNetやVitの画像分類の際に画像以外の説明変数を扱えるのか？

関連した質問

同じタグがついた質問を見る