機械学習を独習している者です。タイトル通りテキスト付きの画像データを用いて感情分析を行うマルチモーダルAIを作りたいと思っており、そのために必要なモデルを探しているのですが、中々このタスクを処理するのに適したモデルが見つからなくて詰まっております。
画像データとテキストデータを入力データとして、それが示す感情表現(ネガポジ)を出力するタスクを実現させようと思ったとき、どのようなvisual-langageモデルを使用するのが良いと思われますか?
画像とテキストを同時に扱うモデル自体は多く公開されていると思うのですが、それで感情分類(二値分類)を行うことができるのかというのが見当もつかなくて困っていたので、質問させていただきました。
マルチモーダルAIや感情分析に詳しい方、何かアドバイスいただけないでしょうか?
ご回答の程よろしくお願いします。
あなたの回答
tips
プレビュー