機械学習について質問です。かなり初歩的な質問で申し訳ないです。
セグメンテーションとして、U-Netを試しに動かしてみたいです。
いろんなサイトにConv2Dと載っていて、畳み込みなんだなというのはわかるのですが、
どのサイトも、画像が正方形でほとんどが2のn乗×2のn乗で、エンコーダ側はいい感じにサイズが2で割れていき、デコーダ側はいい感じにサイズが2倍できてるのですが、長方形の画像などではどのようにネットワークに入れたら良いのでしょうか。
それともZeroPaddingをうまく使えばいいのですか?
kerasを使いたいのでこちらのU-Net参考にしたのですが、どの部分を変えたら良いのでしょうか?
一番最初の入力層の(256 × 256 × input_channel_count)とありますが、こちらは画像のピクセルごとのRGB値というのはわかるのですが、一番最後の出力層の(256 × 256 × output_channel_count)は、何を示しているのでしょうか?
output_channel_countは1でつまりグレースケール、とあるのですが、グレースケールの輝度がどれかのクラスを指す、ということでしょうか。
使いたいデータセットは5クラス分類で、真値画像を前処理として、uint8とかでグレースケールで保存した覚えがあります。
お力添えをお願いします
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/01/22 05:45