CTC lossの正解データサイズの疑問

前提

Pythonで、入力(画像)と出力(文字列)のシーケンス長が異なるデータを扱うニューラルネットワークモデルを構築しようと考えています。Pytorchでの実装をしようとしているのですが、損失関数のCTC lossに関してご質問があります。なおTensorFlowでも同様の仕様でしたのでタグに加えさせて頂きました。

PytorchのCTC loss文書:
https://pytorch.org/docs/stable/generated/torch.nn.CTCLoss.html

TensorFlowのCTC loss文書:
https://www.tensorflow.org/api_docs/python/tf/nn/ctc_loss

発生している問題・エラーメッセージ

ドキュメントを参照したところ、CTC lossに適切な正解データサイズは[バッチ数，シーケンス長]の2次元とのことです。また予測値は最後にLogSoftmaxを通した値にする必要がする必要があるようです。Softmaxを使うということは、正解データはone_hotベクトルで表現し、［バッチ数，シーケンス長，クラス数(one_hot)］の3次元になると思います。今の私の認識ですと、正解データのサイズに関し矛盾が生じることになります。どこに誤りがあるのかご指摘頂けますと大変ありがたく存じます。

素人質問ではありますが、ご回答頂けますと幸いです。よろしくお願い致します。

jbpb0

2022/10/24 06:29

> CTC lossに適切な正解データサイズは[バッチ数，シーケンス長]の2次元とのことです。また予測値は最後にLogSoftmaxを通した値にする必要がする必要があるようです。 torch.nn.CrossEntropyLoss() https://pytorch.org/docs/stable/generated/torch.nn.CrossEntropyLoss.html も同様で、たとえば https://www.qoosky.io/techs/e713dd87f4 のコードでは、ネットワークの出力層のノード数は分類クラス数と同じ10ですが、教師データのラベルは1個の数値(one-hotエンコーディングしてない0〜9の整数)です上記コードのネットワークの定義にはソフトマックスは入ってませんが、 https://qiita.com/ground0state/items/8933f9ef54d6cd005a69 に書かれてるように、torch.nn.CrossEntropyLoss()は内部でソフトマックス処理をしてますので、・ネットワークの出力からソフトマックス処理された10個の数値と、・教師データの1個の数値(one-hotエンコーディングしてない0〜9の整数) から、ロスを計算しますつまり、 > Softmaxを使うということは、正解データはone_hotベクトルで表現し、とは限らない、ということです