ユーザが入力した文字列と画像を入力として、文字列と画像がどれくらいマッチしているかを返す方法を探しているのですが、使えそうなapiもしくはライブラリを知っている方がいたら教えていただきたいです。

ユーザが入力した文字列と画像を入力として、文字列と画像がどれくらいマッチしているかを返す方法を探しているのですが、使えそうなapiもしくはライブラリを知っている方がいたら教えていただきたいです。
例えば、文字列が"犬"で、画像が犬の画像なら高いスコアを返すといった感じです。

y_waiwai

2021/11/04 03:29

どういう理屈でマッチの度合いを測るんでしょうか。そこらへんを詳しく説明しよう

sss_tommy

2021/11/04 13:29

おけです

行動規範の内容に同意します

回答1件

まるでわからん！と質問を出す人がとてもできる内容とは思えませんが、
ザーッと思うところを書きます。
多分素直に実装すると大体誰がやっても大筋はこうなると思います。

入力文字の方から
１. 形態素解析
入力が文字なのか、文章なのか、はたまた犬にしてもヨークシャーテリアだったり柴犬だったりもあり得ます。Dogかもしれません。まず考えないといけないのは文章なのか単語なのかが入ってきたときに、文字列全体で何を言いたいか機械に理解させないといけません。
日本語であればMeCabの形態素解析は必須でしょう。

２. 入力した文字の理解
解析した結果をLSTMにぶち込んで、それが何を言いたいのか理解させる必要があると思います。

続いて画像
３. 画像を認識させる必要があります。一つだけ大きく映るのか、2つ以上映るのかわかりません。一つであれば普通のCNNで良いと思います。複数映るのであればYOLOのようなものか、もっと精度を上げたいのであればFaster RCNNから発展していったFPNのしっかりしたモデルを使えばいいと思います。この中で、何かが複数検出されたら、それの最大のものを使うのか、多数決をするのか、適当な方法で捌けばいいと思います。

比較
４. 2の結果と3の結果をWord to vectorみたいなもので集約できていれば、ベクトルの距離を出して終了です。クラス情報とスーパークラス（ヨークシャーテリアと犬）のような比較であれば、softmaxのパーセントの不一致度か何かで出せばいいと思います。

「おめーその説明はちげーよ」とマサカリを投げられる方であれば、その方法で実装ください。
「わからん」という方であれば、この一連の文章からキーワードを抽出して検索して、具体的な質問に書き換えてた方がイイです。

投稿2021/11/04 12:31

編集2021/11/04 22:34