TensorFlow流の奇妙

TensorFlowでコードを組む場合、所謂『計算グラフ』を作るのですけれども、
計算式の定義は皆"単一"の訓練データに対するもので、ところが、
loss関数の計算や最適化処理(学習)は本質的に複数の学習データ(eg., mini batch)に対して統計的に行わなければなければなりません。

ということは、TensorFlowが内部的にC言語のような『静的な変数』を使って
個々単一訓練データに対する計算結果を"暗黙のうち"に累積していくのでしょうか。

宜しくお願い致します。

_Victorique__

2018/07/29 06:58

誤差逆伝播はご存知ですか？

leilei

2018/07/30 11:25 編集

お返答ありがとうございます。今質問として提起したのはbatch単位での誤差逆伝播をPython+TensorFlowで具体にどういうコード表現で実現したの？という話です。見かけ上scalarや単一データ計算のようですけれども、実際はmatrixで対応しています。これに関して私は誤解しました。R.Shigemori様の御かげでクリアできました！

行動規範の内容に同意します

回答2件

要は定義するパラメーターは単一だけれども、訓練に使うデータは複数あるから、パラメータ管理はどうなっているのという質問でしょうか？

ミニバッチなどで訓練データが複数あったとしても最適化するパラメータ自体は単一です。
ミニバッチ学習でしたら、通常は出力されたloss関数の平均値を用いて勾配を求めます。

単一の計算グラフを作れば、複数のデータが流されようとも、その計算グラフの変数を最適化すればいいので、それ以上の事は何も必要ないかと思います。

質問の意図と違うのであればすいません

投稿2018/07/29 11:16

puroko3

総合スコア185

leilei

2018/07/30 11:30 編集

お返答と丁寧な説明有難うございます。 >単一の計算グラフを作れば、複数のデータが流されようとも、その計算グラフの変数を最適化すればいいのでこれに関してどうやって実現したの？という質問つもりです。 ↑のR.Shigemori様が仰った通り、Pythonの計算はmatrix向きで、訓練データを結局matrixの形で計算式に渡され、matrix計算が行われ、batch(複数訓練データ)による更新が実現されたということですね。

行動規範の内容に同意します

ベストアンサー

「計算式の定義は単一の訓練データに対するもの」という部分に誤解があるように思います。tesorflowのコードを見るとわかるように、データの件数は任意であり、一方のパラメータはひとつです。そして、計算グラフは、これらの複数件のデータを行列式を使って一括処理しています。その意味では「単一訓練データに対する計算結果を"暗黙のうち"に累積していく」というよりも明示的に一括で処理しているというほうが正しいかと思います。
なお、コスト関数は、この一括処理した結果の総合計をしています。その点では累積という表現は間違いではないかもしれません。

投稿2018/07/29 17:55

R.Shigemori

総合スコア3376

leilei

2018/07/30 11:09 編集

R.Shigemoriさんご指導ありがとうございます。私が誤解していたと思います。 tf.placeholder(...)の戻り値(変数)はscalarであり、それ以降の計算は全部このscalarに対して定義されるため私はTensorFlowにおいてloss等の定義が皆 "単一データ(scalar)"に関する計算だと, 勘違いしてしまいました！まずplaceholder(...)の戻り値(変数)は計算対象となるデータそのものではないですね。もう一つ思い込みとして、Pythonの四則計算はscalarであって、実際はmatrix対応。 ★　ところで、tf.placeholder(...)の戻り値(変数)の正体は何でしょうか、 runでパスしたデータ本体のアドレス？　それとも、runで受容する変数の辞書のキーでしょうか？

R.Shigemori

2018/07/30 13:21

placeholderの中身はrunを実行する際の引数であるfeeddictです。大抵はtesorを与えるので、以降の計算グラフはtesorのまま処理を進めます。かなりざっくりとした説明をすると、tesorflowのコードはpythonから見ると関数のようなものです。関数はそれそのものでは機能せず、mainのコードから呼ばれて機能します。この際、引数が渡されます。この引数のうち、入力データに相当するものがfeeddictです。ご存知の通り、関数の入力データは配列も許容され、大抵は全ての入力データに同じ処理が適用されます。これと同じように、tesorflowも与えられたtesorに同じ処理が適用されます

行動規範の内容に同意します

あなたの回答