まるでわからん!と質問を出す人がとてもできる内容とは思えませんが、
ザーッと思うところを書きます。
多分素直に実装すると大体誰がやっても大筋はこうなると思います。
入力文字の方から
1. 形態素解析
入力が文字なのか、文章なのか、はたまた犬にしてもヨークシャーテリアだったり柴犬だったりもあり得ます。Dogかもしれません。まず考えないといけないのは文章なのか単語なのかが入ってきたときに、文字列全体で何を言いたいか機械に理解させないといけません。
日本語であればMeCabの形態素解析は必須でしょう。
2. 入力した文字の理解
解析した結果をLSTMにぶち込んで、それが何を言いたいのか理解させる必要があると思います。
続いて画像
3. 画像を認識させる必要があります。一つだけ大きく映るのか、2つ以上映るのかわかりません。一つであれば普通のCNNで良いと思います。複数映るのであればYOLOのようなものか、もっと精度を上げたいのであればFaster RCNNから発展していったFPNのしっかりしたモデルを使えばいいと思います。この中で、何かが複数検出されたら、それの最大のものを使うのか、多数決をするのか、適当な方法で捌けばいいと思います。
比較
4. 2の結果と3の結果をWord to vectorみたいなもので集約できていれば、ベクトルの距離を出して終了です。クラス情報とスーパークラス(ヨークシャーテリアと犬)のような比較であれば、softmaxのパーセントの不一致度か何かで出せばいいと思います。
「おめーその説明はちげーよ」とマサカリを投げられる方であれば、その方法で実装ください。
「わからん」という方であれば、この一連の文章からキーワードを抽出して検索して、具体的な質問に書き換えてた方がイイです。