「End-to-end training」とは？

Question

DNN分野では「End-to-end training」という言葉がよく出てきますが、
公式的な解釈はなく、個別な解釈を読んでも、分かるような分からないような気分です。

原因は恐らく反対の概念**「End-to-endではないtraining」**は何ですか
というのは分かっていないためかなと思います。

どなたかご解釈いただけませんか。

Accepted Answer

[Youtube - What is end-to-end deep learning? (C3W2L09)](https://www.youtube.com/watch?v=ImUoubi_t7s)
[Qiita - Coursera DeepLearning Course3 Structuring Machine Learning Projects Week2 学習メモ](https://qiita.com/wakamezake/items/5a3844e1f56336290dfb)
> End-to-End学習とは端つまり入力と出力だけ渡して、途中で発生する処理全てを学習してしまうというもの。
OCRを例に挙げると、入力の画像から途中の処理を細かいタスクに分け最終的に文字認識に到るという構造が
一般的、しかしEnd-to-End学習では中間の処理も全て学習させる。
注意点としてデータセットがたくさん必要になる点、逆に言うとデータセットが少ないなら今までの手法を使えばよい。

![イメージ説明](ede853ce56da4b71801658d7fbf146db.png)

上記画像を例にすると画像からいろいろなタスクを踏んで文字認識をするのが一般的な手法ですがEndtoEndの場合画像から文字認識まで一気に学習させる手法のことを指します。もちろん画像とそれに対するラベル(何の文字であるか)という情報が必要になります。

Answer

解決済みですので参考情報を記載します。
end-to-endは論理学でいう「AならばB」、「BならばC」、「ゆえにAならばC」に着想を得た最後の結論を取り上げて学習させる方法と言えます。このアプローチの良いところは予測精度の向上が期待できることです。周知の通り、予測は誤差を含みます。AからBを予測し、BからCを予測する場合、誤差が混入する機会が増すだけ最終的なCの誤差が大きくなります。一方、AからCを予測する場合は誤差が混入する機会が少ないため、誤差が小さくなることが期待できます。

ただし、end-to-endにも欠点があります。統計的にいうと、「AならばB」、「BならばC」、「ゆえにAならばC」は常に成り立つものではないということです。これは記述統計でいう見せかけの相関と呼ばれるもので、本当は無関係のものが、他の相関によって相関があるように見えてしまう事象です。この状況下で構築したモデルは統計的に有意になりにくいことが知られているため、偏相関を取るなどのチェックをした上でモデル化することが推奨されています。

Answer

https://www.quora.com/What-does-end-to-end-mean-in-deep-learning-methods

https://qiita.com/tmshn/items/3ccc5d84daa23a98d4be
> End-to-end 学習（前処理かけたり複数のモデルを組み合わせたりすることなく、入力と出力の関係を直接単一のモデルで学習すること）

https://www.google.co.jp/amp/s/gigazine.net/amp/20170808-what-is-deep-learning
> ラベルはタスクで求められる出力に一致するもので、物の特徴を教えるのに必要となります。ディープラーニングのアルゴリズムは、画像のイメージから特徴を読み取って、どのカテゴリに分類すれば良いかを学びます。このように、画像などのデータから直接学習できる特長からディープラーニングを「エンドツーエンドの学習」と呼んでいるわけです。

Answer

たとえば音声認識なら、音から音素を抽出→音素列をかな等にする→必要なら漢字等に変換する・・・というアルゴリズムが考えられます。
機械翻訳なら、入力を形態素解析・構文解析し、中間表現に変換して、そこからまた対象言語に逆変換していく・・・というやり方があります（ありました）。
画像認識なら、画像に色々なフィルタをかけたりして特徴量を抽出し、その特徴量をSVMみたいな分類器にかける・・・というのがあったと思います。
end to endだと、
音声認識なら生の音声ファイルと書き起こしのテキストだけ与えて、ニューラルネットを学習させます。
機械翻訳も、対訳コーパスだけ与えて学習させます。
画像認識も畳み込みニューラルネットにいきなり画像と正解ラベルを入れます。

関連した質問