kerasで学習させたモデルをロードし、画像で認識させる

2024/02/11 16:18

> 1.テスト用画像（img00.jpg）を300*300のサイズに変更。本当にそのサイズになっていますか？

2024/02/12 06:44

img00.jpgは300*300のサイズです。 shapeに関する記事があったので、ここを参考に進めています。 https://qiita.com/kuroneko-hornet/items/7737b71c3854c06fcb49 また、shapeについて、「None」と「3」は何を意味しているのでしょうか？エラーコード：expected shape=(None, 300, 300, 1), found shape=(None, 300, 3)

2024/02/12 09:01

> img00.jpgは300*300のサイズです。どうやって確かめましたか？ファイルのプロパティでもピクセル数を確認できるかと思いますが「300 × 300」になっているということで良いですね？エラーメッセージは「300 × 3」と言っているようです。

2024/02/12 10:52

画像のプロパティを「試した事」に貼っておきました

2024/02/12 11:42

loaded_model.predict(test_img) ではなくて best_model.predict(test_img) なのは何故でしょうか？

2024/02/12 11:48

エラーの原因については4次元の入力が期待されているためかと思います。（Noneはデータ数を表しているため）テスト画像が1枚であれば（1, 300, 300, 1)になるように調整してください。あともしかして訓練はモノクロ画像で行っていてテスト画像はカラーでしょうか？

2024/02/12 22:47

あともしかして訓練はモノクロ画像で行っていてテスト画像はカラーでしょうか？ →テスト画像はカラーであったので、モノクロ画像に変換しました。（1, 300, 300, 1)になるように調整 →この部分を試してみます

2024/02/13 11:45

> 正しく判断できていない input_img = np.expand_dims(gray_img, axis=-1) # チャンネルの次元を追加 ↓ 変更 normalized_img = gray_img / 255 # 正規化 input_img = np.expand_dims(normalized_img, axis=-1) # チャンネルの次元を追加が必要かも

2024/02/13 13:11

ご教示頂いた正規化を追加すると、0以外の出力ができました！しかし、出力された数値をどう解釈していいか困っております。予測させた画像と出力された数値を下記にまとめましたので、「4.出力された数値に関して」ご確認頂ければ幸いです。

2024/02/13 14:35

> 正しく予測できていれば、「True」が出力されると思っていましたが数値での出力なので、解釈に困っています。そういう風にモデルを学習させたのでしょうか？モデルの出力層はどうなっているんでしょうか？

2024/02/13 23:45

出力層ですね。もう少しでわかりそうな気がします！シグモイド関数で出力されていました。という事は全て0に近いから、単純にねじと認識できていない。と考えてもよさそうですが、それだと混同行列での結果と大きく乖離しているのでつじつまが合いません。

2024/02/14 01:34 編集

> 正しく予測できていれば、「True」が出力されると思っていましたが数値での出力なので、解釈に困っています。 https://teratail.com/questions/ohu1ivc9a3j5ah では、「該当のソースコード」の178〜180行目で > y_pred_proba = best_model.predict(test_generator, verbose=1) threshold = 0.5 y_pred = y_pred_proba >= threshold として、その結果が > y_predの中身を確認すると、下記のような配列になっているので、 array([[False], [False], [ True],....) となりましたが、上記に print(y_pred_proba) を追加して「y_pred_proba」の内容を調べたら、こちらの質問の > prediction = loaded_model.predict(np.array([input_img])) の結果の「prediction」と同様に、数値が入ってたはずです https://teratail.com/questions/ohu1ivc9a3j5ah と同様に、 print(prediction) ↓ 変更 threshold = 0.5 print(prediction >= threshold) とすれば、数値ではなく「True」か「False」と表示されると思います

2024/02/14 04:40 編集

> 混同行列での結果と大きく乖離しているのでつじつまが合いません。混同行列を作る際に使ったデータのそれぞれは、画像ファイルでしょうか？もし画像ファイルなら、「True label」と「Predicted label」がどちらも「0」になってる画像ファイルから1枚と、どちらも「1」になってる画像ファイルから1枚をそれぞれ選んで、この質問のコードで処理したら、結果はどうなりますでしょうか？片方は「False」で、もう片方は「True」と、混同行列と矛盾無く正しく予測できますでしょうか？混同行列を作る際に使った画像でも、この質問のコードでは正しく予測できないなら、学習時のコードとこの質問のコードで、まだ何か(画像の前処理?)相違点があるのだと思いますあるいは、混同行列を作る際に使った画像ならば、この質問のコードで正しく予測できるのなら、混同行列を作る際に使った画像と、この質問に掲載してるネジ数が1〜12個の画像が、かなり異なってることが考えられます

2024/02/14 07:43

ご教授ありがとうございます！出力のところは「True」or「False」で出力できるよう修正できました。 sigmoid関数を用いていて、閾値以上でTrueを出力する。という事ですね。また、混同行列を作る際に使ったデータは画像を用いており、アドバイス頂いた内容を後で検証してみます。混同行列でTP・TNの数値が高かったので、学習自体は問題ないと思っていましたが、これでもまだ検証が必要な時があるんですね。大変勉強になります。ありがとうございます。

2024/02/15 09:23 編集

> 学習の検証で用いた画像をそのまま使っているので、結果が異なる事はおかしい？「*.h5」ファイルと画像ファイルが同じなら、結果も同じになるはずです当方で確認したところ、この質問のコードで問題無いようでした https://qiita.com/tmengine/items/4eeb6770a9a69baf9439 を、データセットも含めて基本そのまま(細かい間違いは直しながら)実行しましたその際の「2. 混同行列」のコードで計算した「y_pred_proba」の先頭の五つは、下記の通りでした [[0.00041848] [0.00181046] [0.00030711] [0.0036839 ] [0.0006335 ]] 次に、上記の数値に該当する画像をそれぞれ、この質問のコードで処理した結果の「prediction」は下記の通り、上記数値とほとんど同じでした [[0.00041848]] [[0.00181046]] [[0.00030711]] [[0.00368386]] [[0.0006335]]

2024/02/15 15:31

同じように出力できているんですね！私のやり方が間違ってそうです。「ソースコード（最新）」を追加したので、ここでの質問のコードとjbpb0様が検証で用いられたコードが同じが見て頂く事は可能でしょうか？お手数お掛けします。