U-Net：長方形画像の処理について

機械学習について質問です。かなり初歩的な質問で申し訳ないです。

セグメンテーションとして、U-Netを試しに動かしてみたいです。
いろんなサイトにConv2Dと載っていて、畳み込みなんだなというのはわかるのですが、
どのサイトも、画像が正方形でほとんどが2のn乗×2のn乗で、エンコーダ側はいい感じにサイズが2で割れていき、デコーダ側はいい感じにサイズが2倍できてるのですが、長方形の画像などではどのようにネットワークに入れたら良いのでしょうか。

それともZeroPaddingをうまく使えばいいのですか？

kerasを使いたいのでこちらのU-Net参考にしたのですが、どの部分を変えたら良いのでしょうか？

一番最初の入力層の(256 × 256 × input_channel_count)とありますが、こちらは画像のピクセルごとのRGB値というのはわかるのですが、一番最後の出力層の(256 × 256 × output_channel_count)は、何を示しているのでしょうか？
output_channel_countは1でつまりグレースケール、とあるのですが、グレースケールの輝度がどれかのクラスを指す、ということでしょうか。
使いたいデータセットは5クラス分類で、真値画像を前処理として、uint8とかでグレースケールで保存した覚えがあります。

お力添えをお願いします